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内 容 提要 


本 书 共 分 为 9 章 ， 从 社会 媒体 API、 数 据 挖掘 技巧 和 Python 的 数据 科学 工具 这 3 个 主题 进行 阐释 。 主 
要 内 容 包 括 : 如 何 用 Python 通过 公共 API 与 社会 媒体 平台 交互 ， 如 何以 方便 的 格式 为 数据 分 析 存 储 社 会 
媒体 数据 ， 如 何 使 用 Python 数据 科学 工具 分 割 社会 媒体 数据 ， 如 何 用 文本 分 析 方法 理解 社会 媒体 数据 ， 如 
何 用 先进 的 统计 和 分 析 手 段 从 海量 数据 中 挖掘 出 有 用 信息 ， 以 及 如 何 用 Web 技术 来 可 视 化 数据 。 

本 书 适合 社会 媒体 挖掘 相关 从 业 人 员 阅 读 。 
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了 路 


天 


近年 来 ,社会 媒体 的 流行 程度 猛 增 ， 越 来 越 多 的 用 户 正在 通过 不 同 的 平台 分 享 信息 。 公 司 用 
社会 媒体 平台 进行 品牌 营销 , 专业 人 士 在 线 维护 其 公众 形象 并 用 社会 媒体 拓展 人 脉 ,而 普通 用 户 
则 在 社会 媒体 上 讨论 任意 主题 。 更 多 的 用 户 ， 就 意味 着 有 更 多 的 数据 等 待 按 掘 。 


本 书 的 读者 可 能 是 开发 者 、 工 程 师 、 分 析 师 、 研 究 人 员 , 或 者 是 希望 将 数据 挖 据 技术 应 用 于 
社会 媒体 数据 的 学 生 。 从 数据 丰富 度 的 角度 来 看 ， 数 据 挖掘 实践 者 〈 或 者 是 未 来 的 实践 者 ) 并 不 
缺少 机 会 和 挑战 。 


本 书 将 介绍 充分 利用 这 些 数 据 所 需 的 基本 工具 。 书 中 首先 介绍 用 于 Python 数据 分 析 的 主要 工 
具 , 提供 一 些 信 息 供 你 上 手 自 然 语言 处 理 、 机 器 学 习 、 社 会 网 络 分 析 和 数据 可 视 化 等 应 用 。 接 着 手 
把 手 地 指导 你 如 何 从 Twitter 、Facebook 、Google+ 、Stack Overflow 、Blogger 、YouTube 等 最 流行 的 
社会 媒体 平台 获取 数据 ， 以 及 如 何 进 行 不 同类 型 的 分 析 ， 以 便 从 原始 数据 中 提炼 有 价值 的 洞 见 。 


本 书 主要 涉及 三 个 主题 ， 如 下 所 示 。 


口 社会 媒体 API: 每 个 平台 都 提供 了 不 同 的 数据 获取 方式 。 理 解 如 何 与 它们 交互 可 以 回答 

以 下 问题 : 如何 获取 数据 ? 可 以 获取 哪 种 类 型 的 数据 ? 这 些 问 题 非常 重要 ， 因 为 如 果 没 

有 获取 到 数据 ， 就 无 法 进行 数据 分 析 。 每 一 章 会 重点 介绍 一 个 不 同 的 社会 媒体 平台 ， 并 

详细 介绍 如 何 与 相关 的 API 进行 交互 。 

数据 挖掘 技巧 : 仅仅 是 从 API 获取 数据 并 没有 太 大 价值 。 下 一 步 需要 回答 : 可 以 用 这 些 

数据 做 什么 ? 每 一 章 将 介绍 对 相应 数据 进行 不 同类 型 的 分 析 所 需 掌 握 的 概念 ， 以 及 为 什 

么 这 些 分 析 能 够 带 来 价值 。 本 书 仅 对 相关 理论 进行 浅显 的 介绍 ， 深 入 介绍 请 参见 相应 的 

学 术 著 作 。 本 书 的 目的 是 为 读者 提供 一 些 可 以 迅速 上 手 的 示例 。 

D Python 的 数据 科学 工具 : 搞 清楚 可 以 用 数据 做 什么 后 ， 最 后 一 个 问题 是 : 如 何 做 ? 
Python 是 数据 科学 的 主流 语言 之 一 ， 其 语法 和 语义 简单 易 懂 ， 并 且 拥 有 丰富 的 科学 计算 
生态 系统 ， 不 仅 对 初学 者 来 说 学 习 曲 线 非常 平滑 ， 而 且 为 专家 提供 了 专业 的 工具 。 本 书 
介绍 了 用 于 科学 计算 的 主要 Python 库 ， 如 NumPy 、pandas 、NetworkX 、scikit-learn 、 

NLTK 等 。 实 例 将 提供 精简 的 代码 ， 以 帮助 你 完成 各 种 有 趣 的 社会 媒体 数据 分 析 。 


如 果 对 以 上 三 个 方面 感 兴趣 ， 那 么 本 书 就 很 适合 你 。 
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本 书 内 容 


第 1 章 ， 社 会 媒体 、 社 交 数 据 和 Python。 这 一 章 将 介绍 用 Python 进行 社会 媒体 数据 挖掘 的 
基本 概念 。 通 过 简要 介绍 机 器 学 习 、 自 然 语言 处 理 、 社 会 网 络 分 析 和 数据 可 视 化 ， 这 一 章 将 介绍 
Python 主要 的 数据 科学 工具 ， 以 及 Python 开发 环境 的 安装 方法 。 


第 2 章 ，Twitter 数据 挖掘 一 一 标签 、 话 题 和 时 间 序 列 。 这 一 章 介 绍 如 何 用 Twitter 数据 进行 
数据 挖掘 。 首 先 设置 一 个 与 Twitter API 交 互 的 Twitter 应 用 ， 然 后 介绍 如 何 用 流 API 获取 数据 ， 
以 及 如 何 对 话题 标签 和 推 文 进行 频率 分 析 。 此 外 还 将 介绍 一 些 时间 序 列 分 析 方 法 , 以 理解 推 文 随 
时 间 的 分 布 情况 。 

第 3 章 ，Twitter 用 户 、 粉 丝 和 社区 。 这 一 章 将 继续 介绍 Twitter 挖掘 ， 重 点 关注 用 户 及 用 户 
间 的 互动 。 我 们 将 演示 如 何 挖掘 用 户 间 的 联系 与 对 话 ， 还 将 介绍 一 些 有 趣 的 应 用 ， 其 中 包括 用 户 
聚 类 〈 分 组 )， 以 及 用 户 影 响 力 与 参与 度 的 度量 方法 。 


第 4 章 ，Facebook 帖子 、 页 面 和 用 户 互动 。 这 一 章 将 重点 介绍 Facebook 和 Facebook Graph 
API。 首 先 介绍 Facebook Graph API 的 交互 方式 ， 包 括 隐私 和 安全 问题 ， 然 后 用 示例 演示 如 何 挖 
掘 用 户 信息 页 和 Facebook 页 面 的 帖子 。 我 们 将 用 时 间 序 列 和 用 户 参与 度 的 概念 来 分 析 用 户 的 互 
动 行 为 ， 其 中 包括 评论 、 喜 欢 和 Reactions。 


第 5 章 ，Google+ 话 题 分 析 。 这 一 章 将 介绍 Google 的 社交 网 络 。 首 先 介绍 如 何 接 人 Google 
的 中 心 化 平台 , 然后 用 示例 演示 如 何在 Google+ 中 搜索 内 容 和 用 户 。 此 外 , 还 会 演示 如 何 将 Google 
API 的 数据 般 入 一 个 由 Python 的 微 框架 Flask 建立 的 Web 应 用 。 


第 6 章 ，Stack Exchange 提问 和 回答 。 这 一 章 将 介绍 问答 类 主题 网 站 ,， 并 将 Stack Exchange 
网 络 作为 主要 示例 。 你 将 学 会 如 何 搜索 这 个 网 络 中 不 同 站 点 的 用 户 和 内 容 ， 尤 其 是 Stack 
Overflow。 借 助 它 们 的 存档 数据 和 在 线 处 理 功能 ， 这 一 章 还 将 介绍 监督 机 器 学 习 方 法 在 文本 分 类 
方面 的 应 用 ， 并 演示 如 何在 实时 应 用 中 人 藤 入 机 咒 学 习 模 型 。 


第 7 章 , 博客 、RSS、 维 基 百 科 和 自然 语言 处 理 。 这 一 章 将 介绍 文本 分 析 方 法 。Web 中 充满 
了 文本 挖掘 的 机 会 ， 这 一 章 将 演示 如 何 与 WordPress.com API、Blogger API、RSS 订阅 和 维基 百 
科 API 等 数据 源 进 行 交互 。 之 后 利用 文本 数据 , 对 之 前 简单 提 及 的 自然 语言 处 理 的 基本 概念 进行 
正式 阐述 与 扩展 。 然 后 介绍 信息 抽取 过 程 ， 并 用 示例 演示 如 何 从 自由 文本 中 抽取 实体 。 

第 8 章 , 挖掘 所 有 数据 。 在 最 常用 的 社交 网 络 之 外 还 有 许多 数据 挖 气 机 会 。 这 一 章 用 示例 演 
示 了 如 何 挖掘 YouTube 、GitHub 和 Yelp 数据 ， 并 探讨 了 当 平 台 没 有 提供 API 时， 如 何 构 建 自己 
的 API 客户 端 。 

第 9 章 ， 关联 数据 和 语义 网 。 这 一 章 将 简要 介绍 语义 网 及 相关 技术 。 探 讨 的 话题 包括 关联 数 
据 、 微 格式 和 资源 描述 框架 (resource description framework，RDF )， 还 用 示例 演示 了 如 何 从 
DBpedia 和 维基 百科 中 挖掘 语义 信息 。 






































































































































本 书 需 要 的 工具 
本 书 中 的 代码 示例 可 以 在 Linux、macOS 和 Windows 系统 的 较 新 版 本 Python 中 运行 。 代 码 
已 经 在 Python 3.4.* 和 Python 3.5.* 中 测试 过 ， 旧 版 本 (Python 3.3.* 或 Python 2.* ) 可 能 不 支持 。 


第 1 章 介绍 了 配置 本 地 运行 环境 的 步 又， 以 及 本 书 会 用 到 的 工具 。 我 们 将 使 用 与 Python 科 
学 计算 (如 NumPy、pandas 和 matplotlib )、 机 器 学 习 ( 如 scikit-learn )、 自 然 语言 处 理 ( 如 NLTK ) 
和 社会 网 络 分 析 (如 NetworkX ) 相关 的 一 些 基本 程序 库 。 














目标 读者 


本 书面 向 希望 使 用 公共 API 从 社会 媒体 平台 获取 数据 并 进行 统计 分 析 , 以 从 中 获得 有 用 信息 
的 中 级 Python 程序 员 。 本 书 假设 你 对 Python 标准 库 有 基本 的 了 解 ， 并 提供 了 实用 案例 来 引导 你 
创建 基于 社交 数据 的 分 析 项 目 。 











排版 约定 
本 书 采用 不 同 的 文本 样式 来 区 分 不 同类 别 的 信息 。 以 下 展示 了 部 分 样式 的 示例 及 其 相应 的 


含义 。 


正文 中 的 代码 、 数 据 库 表 名 和 Twitter 账号 按 以 下 样式 显示 :“ 并 且 ， 这 里 的 genre 属性 是 
一 个 元 素数 量 可 变 的 Python 列表 。” 


代码 块 的 样式 如 下 所 示 : 




















from timeit import timeit 
import numpy as np 





if name., == '_ main 
setup_sum = 'data = list(range(10000))' 
setup_np = 'import numpy as np;' 


setup_np += 'data_np = np.array (list (range(10000)))' 


当 想 让 你 注意 某 部 分 代码 时 ， 我 们 会 用 粗 体 表 示 ， 如 下 所 示 。 





Type your question, or type "exit" to quit. 

> What's up with Gandalf and Frodo lately? They haven't been in the Shire 
for a while... 

Question: What's up with Gandalf and Frodo lately? They haven't been in the 
Shire for a while... 

Predicted labels: plot-explanation, the-lord-of-the-rings 





命令 行 中 的 输入 或 输出 内 容 的 格式 如 下 : 
$ pip install --upgrade [package name] 


新 术语 和 关键 词 以 黑体 字 显 示 。 屏幕 上 ( 如 菜单 或 对 话 框 中 ) 出现 的 文字 按照 如 下 样式 显示 : 
“在 密 钥 与 访问 令 牌 配置 页 面 ,开发 者 可 以 看 到 API 密 钥 和 密码 ,以 及 访问 令 牌 和 访问 令 牌 密 钥 。” 






































0 此 图 标 表示 警告 或 重要 事项 。 


人 此 图 标 表示 提示 或 小 窍门 。 


读者 反馈 


我 们 期 待 读者 的 反馈 。 告 诉 我 们 你 对 本 书 的 看 法 ,喜欢 什么 或 者 不 喜欢 什么 。 读 者 反馈 对 我 
们 很 重要 ， 因 为 这 有 助 于 我 们 出 版 充分 满足 读者 需求 的 图 书 。 要 想 提 供 反馈 ， 只 要 发 送 电子 邮件 
到 feedback@packtpub.com， 并 在 邮件 主题 中 注 明 书 名 即 可 。 如 果 你 擅长 某 一 方面 并 且 有 兴趣 扎 
写 或 者 参与 编写 图 书 ， 可 以 在 http:/www.packtpub.com/authors 中 查看 作者 指南 。 








客户 支持 
为 自己 拥有 一 本 Packt 出 版 的 图 书 而 自豪 吧 ! 为 了 让 你 的 书 物 有 所 值 ， 我 们 还 为 你 准备 了 以 
下 内 容 。 





下 载 示 例 代 码 

如 果 你 是 从 http://www.packtpub.com 网 站 购买 的 图 书 , 登录 自己 的 账号 后 就 可 以 下 载 所 有 已 
购 图 书 的 示例 代码 。 如 果 你 是 从 其 他 地 方 购买 的 图 书 ， 请 访问 http://www.packtpub.com/support 
网 站 并 注册 ， 我 们 会 将 代码 文件 直接 发 送 到 你 的 电子 邮箱 。 


你 也 可 以 通过 以 下 步骤 下 载 代 码 文件 。 


(1) 使 用 你 的 电子 邮箱 地 址 和 密码 在 我 们 的 网 址 上 登录 或 注册 。 
(2) 将 鼠标 移 到 页 面 上 方 的 SUPPORT 标签 。 

(3) 点 击 Code Downloads & Errata。 

(4) 在 Search 框 中 输入 书 名 。 

(5) 选择 你 需要 下 载 代码 文件 的 图 书 。 
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(6) 在 下 拉 菜 单 中 选择 你 购买 本 书 的 途径 。 
(7) 点 击 Code Download。 


下 载 文件 后 ,确保 使 用 以 下 工具 的 最 新 版 本 来 解压 或 提取 文件 夹 : 


口 WinRAR /7-Zip ( Windows ) 
OD Zipeg/iZip/ UnRarX (Mac ) 
DO 7-Zip /PeaZip (Linux ) 














本 书 代 码 也 托管 在 GitHub 上 ， 访问 https://github.com/bonzanini/Book-SocialMediaMiningPython 
即 可 获取 。Packt 拥有 丰富 的 图 书 和 视频 资源 ，GitHub 仓库 https://github.com/PacktPublishing/ 提 
供 了 这 些 资源 的 相关 代码 。 欢 迎 查 阅 ! 








下 载 本 书 中 的 彩色 图 片 


我 们 也 为 你 提供 了 一 份 PDF 文件 ， 其 中 包含 了 本 书 中 的 截屏 和 图 表 等 彩色 图 片 。 这 些 彩 色 
片 可 以 帮助 你 更 好 地 理解 输出 的 变化 。 下 载 地 址 : https://www.packtpub.com/sites/default/files/ 
downloads/MasteringSocialMediaMiningWithPython ColorImages.pdf。 





勘误 

虽然 我 们 竭力 确保 图 书 内 容 的 正确 性 , 但 错误 在 所 难免 。 如 果 你 在 我 们 出 版 的 任何 一 本 图 书 
中 发 现 了 文本 或 代码 错误 , 希望 你 能 告知 我 们 ,我们 将 非常 感激 。 你 的 善举 足以 减少 其 他 读者 在 
阅读 出 错 内 容 时 的 纠结 和 不 快 ,， 并 帮助 我 们 在 后 续 版 本 中 更 正 错误 。 如 果 你 发 现任 何 错误 ， 请 访 
问 http:/www.packtpub.com/submit-errata， 选 择 相 应 图 书 ， 点 击 Errata Submission Form 链接 ， 并 
输入 错误 之 处 的 具体 信息 。 "提交 的 错误 得 到 验证 后 ， 我 们 就 会 接受 你 的 建议 ， 并 将 该 处 错误 信 
息 上 传 到 我 们 的 网 站 或 添加 到 已 有 勘误 表 的 相应 位 置 。 


访问 https://www.packtpub.com/books/content/support 并 在 搜索 框 中 输入 书 名 ， 即 可 查看 该 图 
书 已 有 的 勘误 信息 。 这 部 分 信息 会 在 Errata 部 分 显示 。 
































反 盗版 

任何 媒体 都 会 面临 版 权 内 容 在 互联 网 上 的 盗版 问题 ，Packt 也 不 例外 。Packt 非 常 重视 版 权 保 
护 。 如 果 你 发 现 我 们 的 作品 在 互联 网 上 被 非法 复制 , 不 管 以 什么 形式 ,都 请 立即 为 我 们 提供 相关 
网 址 或 网 站 名 称 ， 以 便 我 们 进行 补救 。 








Qa 本 书 中 文 版 的 勘误 请 到 http://www.ituring.com.cn/book/2005 查看 和 提交 。 一 一 编者 注 





请 将 疑似 盗版 材料 的 网 址 发 送 到 copyright@packtpub.com。 
你 的 反 盗版 行动 就 是 在 保护 作者 和 出 版 社 , 只 有 这 样 , 我 们 才能 继续 以 优质 内 容 回 馈 像 你 这 
样 的 热心 读者 。 





问题 
如 果 对 本 书 存 有 任何 方面 的 疑问 ， 可 以 通过 questions@packtpub.com 邮箱 联系 我 们 ， 我 们 将 
尽力 为 你 答疑 解 惑 。 
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本 书 的 主要 内 容 是 用 Python 将 数据 挖掘 技术 应 用 于 社会 媒体 。 这 人 句 话 中 用 黑体 突出 的 三 个 
关键 词 帮助 我 们 定义 了 本 书 的 目标 读者 : 对 涉及 上 述 三 个 主题 的 领域 感 兴趣 的 所 有 开发 者 、 工 程 
师 、 分 析 师 、 研 究 人 员 或 学 生 。 


本 章 包 含 如 下 主题 : 


口 社会 媒体 和 社交 数据 

口 在 社会 媒体 中 进行 数据 挖掘 的 总 体 流 程 
口 Python 开发 环境 的 安装 与 配置 
口 Python 的 数据 科学 工具 

口 用 Python 处 理 数 据 














1.1 人 入门 


2015 年 第 二 季度 ，Facebook 宣称 其 已 拥有 近 15 亿 月 活跃 用 户 。2013 年 ，Twitter 宣称 其 平台 
每 天 发 布 的 推 文 超过 $ 亿 条 。2015 年 ， 你 应 该 很 感 兴趣 的 、 规 模 小 一 个 数量 级 的 Stack Overflow 
宣称 ， 自 网 站 运行 以 来 , 平台 上 已 经 积累 了 超过 1000 万 个 编程 问题 。 




















在 描述 社会 媒体 的 流行 程度 时 , 这 些 数字 仅仅 是 冰山 一 角 。 随 着 更 多 用 户 通 过 不 同 的 平台 分 
享 越 来 越 多 的 信息 ,社会 媒体 已 经 呈 指 数 级 增长 。 这 些 数 据 为 数据 挖掘 者 提供 了 难得 的 机 会 。 本 
书 的 目的 是 指导 你 通过 社会 媒体 API 来 收集 数据 ， 并 用 Python 工具 分 析 数 据 ， 最 终 获得 有 关 用 
户 如 何在 社会 媒体 上 互动 的 有 趣 洞 见 。 












































本 章 将 先 介绍 社会 媒体 挖掘 的 挑战 和 机 遇 ， 然 后 介绍 后 文 会 用 到 的 一 些 Python 工具 


“一 DO 
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1.2 ”社会 媒体 一 一 机 遇 和 挑战 


在 传统 媒体 时 代 , 用 户 仅仅 是 消费 者 。 信 息 流 是 单 向 的 ， 即 从 信息 发 布 者 到 用 户 。 社 会 媒体 
打破 了 这 种 模式 ， 它 让 每 个 用 户 既 可 以 是 消费 者 ， 同 时 也 可 以 是 发 布 者 。 很 多 学 术 著作 都 研究 过 
这 个 话题 ， 并 借 此 来 定义 社会 媒体 这 个 术语 。( 例如 ，2010 年 ，Andreas M. Kaplan 和 Michael 
Haenlein 发 表 了 学 术 论 文 “Users of the world, unite! The challenges and opportunities of Social 
Media”。) 各 种 社会 媒体 平台 都 具有 以 下 三 个 特征 : 


口 基于 互联 网 的 应 用 
口 用 户 生 成 的 内 容 
口 网 络 


社会 媒体 是 基于 互联 网 的 应 用 。 显 然 , 互联 网 和 移动 技术 的 发 展 促进 了 社会 媒体 的 扩张 。 你 
可 以 用 手机 立刻 连接 到 一 个 社会 媒体 平台 ， 然 后 发 布 内 容 或 了 解 最 新 的 新 闻 。 


社会 媒体 平台 是 由 用 户 生成 的 内 容 驱 动 的 。 与 传统 媒体 模式 相反 , 每 个 用 户 都 是 潜在 的 内 容 
发 布 者 。 更 重要 的 是 , 任何 用 户 都 可 以 分 享 内 容 、 发 表 评 论 , 或 者 通过 喜欢 按钮 (有 时 是 赞同 或 
点 赞 ) 表达 积极 的 赞赏 ， 从 而 与 其 他 用 户 进行 互动 。 


社会 媒体 是 关于 网 络 的 。 正 如 前 面 所 描述 的 , 社会 媒体 是 关于 用 户 与 其 他 用 户 的 互动 。 连 接 
( connected ) 是 大 多 数 社会 媒体 平台 的 核心 概念 ， 通 过 新 闻 订 阅 和 时 间 线 所 消费 的 内 容 是 由 你 的 
连接 所 驱动 的 。 


因为 这 些 主要 特征 是 多 数 社会 媒体 平台 的 核心 ， 所 以 社会 媒体 有 多 种 用 途 。 


口 与 朋友 和 家 人 保持 联系 ( 例如， 通过 Facebook ) 

口 发 微 博 和 了 解 最 新 的 新 闻 ( 例如 ， 通 过 Twitter ) 

口 与 职业 圈 保 持 联系 〈 例如， 通过 LinkedIn ) 

口 分 享 多 媒体 内 容 (例如 ， 通 过 Instagram、YouTube、Vimeo 和 Flickr ) 

口 找到 问题 的 答案 ( 例如 ， 通 过 Stack Overflow 、Stack Exchange 和 Quora ) 
口 找到 并 组 织 感 兴趣 的 事物 ( 例如 ， 通 过 Pinterest ) 


本 书 致力 于 回答 一 个 核心 问题 : 如 何 从 社会 媒体 数据 中 提取 有 用 的 知识 ” 退 一 步 来 看 , 我 们 
首先 需要 定义 什么 是 知识 ， 以 及 什么 是 有 用 。 

知识 的 传统 定义 来 源 于 信息 科学 。 知 识 的 概念 通常 表示 为 金字 塔 的 一 部 分 , 该 金字 塔 有 时 也 
称 作 知识 层次 ， 其 中 数据 是 基础 ， 信 息 是 中 间 层 ， 而 知识 在 最 顶层 。 知 识 层 次 如 图 1-1 所 示 。 
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图 1-1 从 原始 数据 到 语义 知识 








攀登 金字 塔 意味 着 从 原始 数据 中 提炼 出 知识 , 这 需要 经 历 内 容 和 意义 的 整合 。 当 攀登 这 个 金 
字 塔 时 , 所 用 的 技术 可 以 帮助 我 们 更 深入 地 理解 原始 数据 , 更 重要 的 是 可 以 帮助 我 们 理解 生成 这 
些 数据 的 用 户 。 换 言 之 ， 它 会 变 得 更 加 有 用 。 


在 此 背景 下 ， 有 用 的 知识 意味 着 可 执行 的 知识 ， 即 能 够 使 决策 者 实现 一 个 商业 战略 的 知识 。 
本 书 将 介绍 从 社交 数据 中 抽取 价值 的 关键 原则 。 理解 用 户 如 何 通 过 社会 媒体 平台 进行 互动 也 是 本 
书 的 重要 目标 之 一 。 


接 下 来 将 介绍 从 社会 媒体 平台 控 气 数据 的 机 遇 和 挑战 。 









































1.2.1 机 遇 


开发 数据 挖掘 系统 的 主要 机 遇 是 从 数据 中 获取 有 用 的 洞 见 。 其 目的 是 用 数据 挖掘 技术 回答 有 
意义 的 (有 时 是 很 难 的 ) 问题 ， 从 而 帮助 我 们 增长 有 关 特 定 领域 的 知识 。 例 如 ， 在 线 零售 商店 可 
以 应 用 数据 挖掘 来 了 解 顾客 的 购物 行为 。 通过 分 析 数 据 , 店主 就 可 以 基于 顾客 的 购买 习惯 (例如 ， 
购买 了 A 商品 的 用 户 一 般 还 会 购买 B 商品 ) 向 他 们 推荐 产品 。 这 样 的 推荐 通常 可 以 提供 更 好 的 
用 户 体 验 ， 提 升 用 户 满意 度 ， 而 回报 则 是 更 好 的 销售 业绩 。 

不 同 领 域 的 机 构 都 可 以 用 数据 挖 气 技术 来 改善 业务 。 具 体 示 例如 下 所 示 。 

口 银行 : 

和 识别 忠诚 客户 ， 并 为 他 们 提供 有 针对 性 的 促销 方式 
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和 识别 虚假 交易 的 模式 ， 以 减少 经 济 损失 
口 医药 : 


里 理解 病人 的 行为 ， 以 预测 其 诊疗 时 间 
时 根据 病人 的 历史 数据 支持 医生 的 诊断 决策 


口 零售 : 


户 





四 理解 购物 模式 ， 以 改善 顾客 体验 
a 提高 市 场 营销 的 精准 性 和 有 效 性 
四 分 析 实 时 的 交通 数据 ， 以 找到 配送 食物 的 最 快 路 径 


以 上 应 用 场景 如 何 映射 到 社会 媒体 领域 ? 解决 该 问题 的 核心 在 于 用 户 如 何 通过 社会 媒体 平 
台 分 享 数据 。 很 多 机 构 不 再 局 限于 分 析 能 够 直接 获取 的 数据 , 还 会 用 社会 媒体 平台 获取 更 多 数据 。 

可 以 用 设计 优良 、 无 关 语言 的 API 搜 集 社 会 媒体 数据 。 社 会 媒体 平台 通常 会 为 开发 者 提供 一 
个 Web API， 以 便 将 他 们 的 应 用 与 特定 的 社会 媒体 功能 整合 起 来 。 






























































API 

API ( application programming interface ， 应 用 编程 接口 ) 是 一 组 操作 定义 和 协议 ， 
0 描述 了 一 个 软件 组 件 ( 如 库 或 远程 服务 ) 的 行为 ,其 中 包括 它 允 许 的 操作 、 输 入 

和 输出 。 在 使 用 第 三 方 API 时 ， 开 发 者 无 须 担 心 组 件 的 内 部 实现 ， 只 需要 关心 

如 何 使 用 该 接口 。 


当 谈 到 Web API 时, 我 们 指 的 是 一 种 Web 服务 , 该 服务 将 多 个 URI 暴露 给 公众 以 获取 数据 ， 
这 些 URI 可 能 暴露 在 鉴 权 层 " 后 。 一 种 常见 的 API 架构 方法 称 作 表现 层 状态 转化 ( representational 
state transfer，REST )。 实 现 REST 架构 的 API 称 作 RESTful API。 我 们 仍然 更 喜欢 Web API 这 个 
更 常用 的 名 称 ， 因 为 很 多 现 有 的 API 并 未 严格 遵守 REST 规则 。 阅 读本 书 时 ， 你 并 不 需要 深入 理 
解 REST 架构 。 











1.2.2 ”挑战 
社会 媒体 挖掘 的 部 分 挑战 源 自 数据 挖掘 领域 。 


当 处 理 社交 数据 时 ,我 们 常常 需要 处 理 大 数据 。 为 了 理解 大 数据 的 含义 及 其 中 的 挑战 , 我们 
需要 回 到 大 数据 的 传统 定义 (参见 Doug Laney 于 2001 年 撰写 的 文章 “3D Data Management: 
Controlling Data Volume, Velocity and Variety”)。 该 定义 也 称 作 大 数据 的 3V， 即 容量 ( volume )、 
多 样 性 ( variety ) 和 速度 (velocity )。 经 过 这 些 年 的 发 展 ， 这 个 定义 也 在 逐渐 深化 ， 人 们 在 其 基 






































QD API 用 户 需要 先 注 册 账 户 ， 获 取 鉴 权 许 可 ， 然 后 才能 使 用 URI。 译 者 注 
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础 上 增加 了 更 多 的 V， 其 中 最 重要 的 是 价值 ( value )， 因 为 探索 大 数据 的 一 个 主要 目的 是 为 机 构 
提供 价值 。 在 大 数据 的 原始 3V 中 ， 容 量 指 的 是 处 理 分 布 在 不 同 机 器 中 的 数据 。 这 就 意味 着 需要 
一 个 与 小 数据 ( 如 内 存 数据 ) 处 理 完全 不 同 的 基础 架构 。 此 外 ,容量 与 速度 是 相关 的 ， 当 数据 快 
速 增长 时 ， 大 这 个 概念 也 在 不 断 变 化 。 最 后 ， 多 样 性 是 指 如 何以 不 同 的 格式 和 结构 呈现 数据 ,这 
些 多 样 的 数据 通常 不 兼容 且 带 有 不 同 语义 。 社 会 媒体 数据 也 具备 3V 特征 。 


大 数据 的 兴起 促进 了 新 的 数据 库 技术 NoSQL 的 发 展 。NoSQL 是 多 种 数据 库 范 式 的 总 称 ,， 它 
们 都 脱离 了 传统 的 关系 型 数据 ,支持 动态 的 模式 设计 。 虽然 本 书 并 不 是 关于 数据 库 技术 的 , 但 从 
数据 库 技术 的 角度 来 看 , 我 们 仍然 重视 对 结构 化 数据 、 非 结构 化 数据 和 半 结 构 化 数据 的 混合 数据 
进行 处 理 的 需求 。 结 构 化 数据 指 的 是 组 织 良好 且 通 常 以 表格 形式 呈现 的 信息 。 因 此 , 它 与 关系 型 
数据 库 的 关联 就 非常 明显 了 。 表 1-1 展示 了 一 个 结构 化 数据 的 示例 ， 该 数据 表示 一 个 书店 销售 的 
图 书 。 





























































































































表 1-1 图 书 销售 信息 





书 名 类 型 价 格 
《1984》 政治 小 说 位 
《战争 与 和 平 》 战争 小 说 10 





























以 上 数据 是 结构 化 的 ,因为 其 中 的 每 一 个 表示 项 都 有 精确 的 组 织 ， 即 均 具有 书 名 、 类 型 和 价 
格 这 3 个 属性 。 


与 结构 化 数据 对 立 的 是 非 结 构 化 数据 , 后 者 是 没有 预定 义 数据 模型 的 信息 , 或 者 说 是 没有 根 
据 预 定义 数据 模型 进行 组 织 的 信息 。 非 结构 化 数据 通常 以 文本 数据 的 形式 呈现 ,如 电子 邮件 、 文 
档 、 社 会 媒体 帖子 等 。 本 书 介绍 的 技术 可 用 于 从 这 些 非 结构 化 数据 中 抽取 模式 ， 从 而 提供 结构 化 
数据 。 


介 于 结构 化 数据 和 非 结构 化 数据 之 间 的 是 半 结 构 化 数据 。 半 结构 化 数据 的 结构 要 么 很 灵活 ， 
要 么 是 没有 完全 预定 义 的 。 有 时 半 结 构 化 数据 也 称 作 自 我 描述 结构 。 一 种 典型 的 半 结 构 化 数据 格 
式 是 JSON。 顾 名 思 义 ，JSON 从 编程 语言 JavaScript 中 借鉴 了 表示 方法 。 因 为 广泛 用 于 在 Web 
应 用 中 的 服务 端 与 客户 端 之 间 交 换 数据 ， 所 以 JSON 数据 格式 现在 非常 流行 。 以 下 是 JSON 格式 
数据 的 一 个 例子 ， 它 对 表 1-1 中 的 图 书 数据 进行 了 扩展 。 


[ 
{ 
















































































"和 世 98 让 

"price": 12, 

"author": "George Orwell", 

"genre": ["Political fiction", "Social science fiction"] 


"title": "War and Peace"， 
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Oriee Ss.10, 
"genre": ["Historical", Romance", "War novel"] 
} 

] 

从 以 上 示例 中 可 以 观察 到 ,第 一 本 书 有 一 个 author 属性 ,但 该 属性 并 未 出 现在 第 二 本 书 中 。 
另外 ， 这 里 的 genre 属性 是 以 一 个 列表 的 形式 出 现 的 ， 该 列表 具有 不 同 数量 的 值 。 通 常 来 说 ， 
在 具有 良好 组 织 结 构 的 ( 关系 型 ) 数据 格式 中 应 该 避免 这 两 方面 ， 但 它们 可 以 在 JSON 中 实现 ， 
而 且 在 处 理 半 结构 化 数据 时 更 普遍 。 


对 于 结构 化 和 非 结 构 化 数据 的 讨论 其 实 是 为 了 阅 明 如 何 处 理 不 同 的 数据 格式 , 并 用 不 同 的 方 
法 实现 数据 完整 性 。 数 据 完整 性 主要 用 于 应 对 脏 数 据 、 非 一 致 性 数据 或 不 完整 数据 的 组 合 挑 战 。 


在 分 析 用 户 生成 的 内 容 时 ,数据 不 一 臻 和 不 完整 是 非常 常见 的 , 需要 特别 注意 , 尤其 是 来 自 
社会 媒体 的 数据 。 通 常情 况 下 ,用 户 有 条 理 地 分 享 数据 是 非常 罕见 的 。 相 反 ， 社 会 媒体 通常 由 非 
正式 的 环境 以 及 一 些 自 相 矛盾 的 信息 组 成 。 例 如 ， 如 果 一 个 用 户 想 要 在 某 个 公司 的 Facebook 页 
面 上 抱怨 该 公司 的 某 款 产品 , 那么 他 首先 得 喜欢 该 页 面 ,而 这 造成 的 效果 与 用 户 实际 想 要 表达 的 
结果 相反 ， 因 为 用 户 原本 是 想 表达 对 该 公司 低 质 量 产 品 的 不 满 。 因 此 ,理解 用 户 如 何在 社会 媒体 
平台 进行 互动 对 设计 良好 的 分 析 模 型 非常 重要 。 


要 创建 数据 挖 据 应 用 ， 还 需要 考虑 与 数据 获取 相关 的 问题 ， 特 别 是 公司 的 策略 是 保护 数据 
时 。 换 名 话说， 数据 并 不 总 是 能 公开 获得 的 。 前 文 讨论 过 ， 与 其 他 企业 环境 相 比 ， 在 社会 媒体 
挖掘 中 获取 数据 并 不 是 困难 的 事情 ， 因 为 大 多 数 社会 媒体 平台 都 提供 了 设计 良好 且 无 关 语言 的 
API, 我 们 可 以 用 它们 来 获得 需要 的 数据 。 当 然 , 这 些 数据 的 可 获得 性 仍然 取决 于 用 户 如 何 分 享 
数据 以 及 如 何 授权 我 们 获取 数据 。 例 如 ，Facebook 用 户 可 以 设置 其 信息 在 公开 资料 中 的 公开 程 
度 ， 以 及 对 好 友 公 开 的 程度 。 生 日 、 当 前 位 置 、 工 作 经 历 等 信息 可 以 单独 设置 为 保密 或 公开 。 
同样 ， 当 我 们 试图 通过 Facebook API 获取 这 些 数 据 时 ， 注 册 我 们 应 用 的 用 户 可 以 只 授权 我 们 希 
望 得 到 的 部 分 数据 。 


数据 挖掘 的 最 后 一 个 挑战 在 于 理解 数据 挖掘 过 程 本 身 以 及 对 其 进行 解释 。 换 句 话 说, 在 开始 
分 析 数 据 前 ,提出 合适 的 问题 并 不 总 是 很 容易 的 。 研 发 过 程 往往 是 由 探索 性 分 析 驱 动 的 , 为 了 理 
解 如 何 解 决 问题 , 我 们 需要 先 搞 清楚 问题 。 可 以 用 存在 相关 性 并 不 意味 着 有 因果 关系 来 描述 统计 
学 中 的 一 个 相关 概念 。 很 多 统计 检验 可 以 用 于 建立 两 个 变量 间 的 相关 关系 ,也 就 是 说 ， 两 个 事件 
一 起 发 生 ， 但 这 并 不 足以 在 任 一 方向 建立 因果 关系 。 关 于 奇怪 关联 的 有 趣 示例 在 网 上 随处 可 见 。 
Franz H. Messerli 于 2012 年 撰写 的 文章 “Chocolate Consumption, Cognitive Function, and Nobel 
Laureates” 是 一 个 非常 流行 的 示例 ， 该 文章 发 表 于 《新 英格兰 医学 杂志 》( 最 负 盛 名 的 医学 杂志 
之 一 )， 展示 了 各 国人 均 消耗 的 巧克力 数量 与 诺 贝 尔 奖 数量 间 的 相关 关系 。 


当 进 行 探索 性 分 析 时 ， 非 常 重要 的 一 点 是 ， 记 住 相 关 性 ( 两 个 事件 一 起 发 生 ) 是 双向 关系 ， 
而 因果 (事件 A 导致 事件 B ) 是 单 向 关系 。 是 巧克力 能 使 你 变 得 更 聪明 , 还 是 聪明 人 比 普通 人 更 
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爱 吃 巧克力 ? 这 两 个 事件 一 起 发 生 仅仅 是 偶然 ?” 是 否 存在 第 三 个 尚未 发 现 的 变量 在 这 个 相关 关 
系 中 起 作用 ? 简单 地 观察 相关 性 并 不 足以 描述 因果 , 但 这 通常 是 针对 观察 数据 提出 重要 问题 的 一 
个 有 趣 起 点 。 


接 下 来 将 介绍 我 们 的 应 用 如 何 与 社会 媒体 API 交互 ， 以 及 如 何 进 行 社会 媒体 数据 分 析 。 
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本 节 将 简要 介绍 构建 一 个 社会 媒体 挖掘 应 用 的 整个 流程 ， 并 在 后 续 章 节 中 深入 介绍 其 中 的 
细节 。 


整个 流程 分 为 以 下 步骤 : 


(1) 鉴 权 

(2) 数据 收集 

(3) 数据 清洗 和 预 处 理 
(4) 建 模 和 分 析 

(5) 结果 呈现 








图 1-2 展现 了 该 流程 的 概览 。 


Eee 
社会 媒体 
平台 
























数据 可 视 化 
与 数据 报表 






清洗 与 预 处 理 分 析 引 擎 













社会 媒体 


整齐 精炼 的 
数据 (原始 ) 数据 





图 1-2 ”社会 媒体 挖掘 的 整个 流程 
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通常 用 名 为 OAuth ( Open Authorization， 开 放 授权 ) "的 行业 标准 执行 鉴 权 步 又 。 这 个 过 程 
涉及 三 个 角色 : 用 户 、 消 费 者 (我 们 的 应 用 ) 和 资源 提供 方 (社会 媒体 平台 )。 该 过 程 的 步 又 如 
下 所 示 。 


(1) 用 户 同 意 并 授权 第 三 方 应 用 接 入 社会 媒体 平台 。 

(2) 用 户 并 不 是 直 用 提供 社会 媒体 的 密码 ， 资源 提供 方 会 生成 一 个 令 牌 和 一 个 
密码 ， 并 将 其 交 给 第 三 方 应 用 。 第 三 方 应 用 在 每 次 请 求 时 都 需要 使 用 这 两 个 信息 ， 以 防伪 造 。 

(3) 然后 用 户 用 恋人 入 重 定 向 到 资源 提供 广 ， 该 过 程 需要 确认 向 第 三 方 肥 应 用 开放 了 获取 用 户 
数据 的 授权 。 

(4) 根据 社会 媒体 平台 的 性 质 ， 还 需要 确认 第 三 方 应 用 能 否 代表 用 户 来 执行 任意 操作 ， 如 发 
布 一 个 更 新 、 分 享 一 个 链接 等 。 

(5) 资源 提供 方 为 第 三 方 应 用 发 布 一 个 有 效 的 令 牌 。 

(6) 然后 该 令 牌 可 以 返回 给 用 户 ， 以 便 用 户 确 认 接 入 权限 。 


图 1-3 展示 了 OAuth 过 程 并 标注 了 上 述 各 个 步 又。 需要 记 住 的 是 ， 交 换 凭证 (用户 名 /密码 ) 
仅仅 发 生 于 步骤 (3) 和 步骤 (4) 中 的 用 户 和 资源 提供 方 之 间 。 所 有 其 他 交换 都 是 由 令 牌 驱动 的 。 





















































(3) 
x 资源 提供 方 

Web 应 | 

Ee 











图 1-3 ”OAuth 过 程 


从 用 户 的 角度 来 看 ， 当 访问 我 们 的 Web 应 用 并 点 击 用 Facebook (或 Twitter、Google+ 等 ) 
登录 这 个 按钮 时 ,这 个 复杂 的 过 程 就 会 发 生 。 0 须 确认 他 们 要 为 我 们 的 应 用 授权 , 并 且 
所 有 过 程 都 在 底层 完成 。 




















Q 如 果 想 深入 了 解 OAuth， 请 关注 人 民 由 











云 





已 出 版 社 即 将 出 版 的 《OAuth 2 实战 》( http:/www.ituring.com.cn/book/2013 )。 
一 一 编者 注 
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从 开发 者 的 角度 来 看 , Python 生态 系统 的 美妙 之 处 在 于 , 它 为 大 多 数 社会 媒体 平台 提供 了 非 Ra | 
常 成 熟 的 库 , 其 中 就 包含 了 鉴 权 过 程 的 实现 。 作 为 开发 者 , 一 旦 你 为 自己 的 应 用 注册 了 目标 服务 ， 

平台 将 为 其 提供 必要 的 授权 令 牌 。 图 1-4 展示 了 一 个 名 为 ntro to Text Mining 的 自 定义 Twitter 应 

用 的 截图 。 在 Keys and Access Tokens 配置 页 面 ， 开 发 者 可 以 看 到 API 密 钥 和 密码 ， 以 及 访问 令 

牌 和 访问 令 牌 密码 。 我 们 将 在 后 续 章 节 中 讨论 每 个 社会 媒体 平台 的 鉴 权 细节 。 














Intro to Text Mining Ttoau 


Details Settings Keys and Access Tokens Permissions 
Application Settings 


Consumer Key (AP! Key) EE 
Consumer Secret (AP! Secret) Go 


Access Level Read-only (modify app permissions) 
Owner marcobonzanini 
Owner ID 19018614 


Application Actions 


Regenerate Consumer Key and Secret Change App Permissions 








Your Access Token 








图 1-4 名 为 Intro to Text Mining 的 Twitter 应 用 的 配置 页 面 ， 其 中 包含 了 开发 者 在 其 
应 用 中 使 用 的 所 有 授权 令 牌 


数据 的 收集 、 清 洗 和 预 处 理 步 又 也 依赖 于 社会 媒体 平台 。 特别 是 数据 收集 步骤 和 初始 授权 是 
捆绑 在 一 起 的 , 我 们 只 能 下 载 已 授权 获取 的 数据 。 男 一 方面 ,清洗 和 预 处 理 为 数据 建 模 和 分 析 做 
准备 ， 以 产生 有 关 这 些 数 据 的 洞 见 。 


回 到 图 1-2 ， 建 模 和 分 析 是 通过 名 为 分 析 引 警 的 组 件 来 执行 的 。 本 书 中 的 典型 数据 处 理 任 务 
就 是 文本 挖 气 和 图 挖掘。 


文本 挖掘 (也 称 作 文本 分 析 ) 是 从 非 结构 化 的 文本 数据 中 获得 结构 化 信息 的 过 程 。 文 本 挖掘 
适用 于 大 多 数 社会 媒体 平台 ， 因 为 用 户 可 以 用 帖子 或 评论 的 方式 发 布 内 容 。 


以 下 列举 了 文本 挖掘 应 用 的 一 些 示 例 。 
口 文档 分 类 : 将 一 个 文档 指定 为 一 个 或 多 个 类 别 
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口 文档 聚 类 : 将 文档 分 组 为 子 集 ( 也 称 作 簇 ) ， 每 个 类 中 的 数据 是 一 致 的 ， 且 与 其 他 类 中 
的 数据 有 区 别 ( 例如 ， 通 过 话题 或 子 话题 进行 区 分 ) 

口 文档 摘要 : 生成 一 个 简短 版 文档 ， 目 的 是 为 用 户 减 少 信息 量 ， 同 时 保留 原始 版 本 中 最 重 
要 的 内 容 

口 实体 抽取 : 在 文本 中 定位 并 对 实体 分 类 ， 类 别 如 人 物 、 地 点 或 机 构 等 

口 情感 分 析 : 识别 并 对 文本 中 的 情感 和 意见 分 类 ， 以 理解 对 特定 产品 、 话 题 、 服 务 等 的 态度 


虽然 并 非 所 有 这 些 应 用 都 是 为 社会 媒体 量 身 定做 的 , 但 社会 媒体 平台 上 的 文本 数据 的 急剧 增 
长 使 社会 媒体 成 为 了 文本 挖掘 的 研究 对 象 。 


图 挖掘 同样 关注 数据 的 结构 。 图 是 一 种 易于 理解 且 强 大 的 数据 结构 , 可 以 用 于 不 同 的 数据 表 
示 场 景 。 在 图 中 ， 需 要 考虑 到 两 个 主要 成 分 : 节点 和 边 。 前 者 表示 实体 或 对 象 ， 后 者 表示 节点 间 
的 关系 或 连接 。 在 社会 媒体 中 ， 图 的 显著 用 途 是 表示 用 户 间 的 社会 关系 。 从 更 通常 的 意义 来 说 ， 
在 社会 科学 中 用 于 表示 社会 关系 的 图 也 叫 作 社会 网 络 。 

在 社会 媒体 中 使 用 图 这 种 数据 结构 时 , 我 们 可 以 自然 地 用 节点 表示 用 户 , 用 边 表示 他 们 之 间 
的 关系 ( 如 朋友 或 粉丝 ), 这 样 , 朋友 的 朋友 中 喜欢 Python 的 人 这 种 信息 就 很 容易 通过 遍历 图 ( 即 
从 一 个 节点 出 发 ， 沿 着 所 有 的 边 行走 ) 获得 。 图 论 和 图 挖 据 为 发 气 更 深层 次 的 信息 提供 了 可 能 ， 
正如 前 面 的 示例 所 示 ， 这 些 深层 次 的 信息 并 不 是 那么 显而易见 。 


介绍 完 社会 媒体 挖掘 后 ， 接 下 来 将 介绍 一 些 经 常用 于 数据 挖掘 项 目的 有 用 的 Python 工具。 













































































1.3 Python 的 数据 科学 工具 


到 目前 为 止 ,我 们 用 数据 挖掘 这 个 术语 来 指 我 们 将 在 本 书 中 应 用 的 问题 和 技术 。 实 际 上 , 本 
节 的 标题 中 提 到 了 数据 科学 这 个 术语 。 近 些 年 ,这 个 术语 的 使 用 呈 爆 炸 式 增长 ,特别 是 在 商业 环 
境 中 , 但 很 多 学 者 和 记者 也 择 击 了 将 其 作为 流行 语 使 用 。 同 时 ， 其 他 一 些 学 术 机 构 开 始 开设 数据 
科学 课程 , 很 多 图 书 和 文章 也 关于 这 个 主题 。 与 其 纠结 于 不 同学 科 的 边界 应 该 在 哪里 , 不 如 只 观 
察 人 们 的 兴趣 点 为 何如 今 普遍 聚集 于 这 些 领 域 , 包括 数据 科学 、 数 据 挖 握 、 数 据 分 析 、 统 计 、 机 
器 学 习 、 人 工 智能 、 数 据 可 视 化 等 。 我 们 讨论 的 主题 本 质 上 就 是 蜂 学 科 的 ,它们 之 间 随 着 时 间 的 
变化 相互 借鉴 。 毫 无 疑问 ,现在 正 是 研究 这 些 领 域 的 最 佳 时 机 ， 因 为 公众 对 此 有 极 大 兴趣 ，, 并且 
有 趣 的 项 目 在 不 断 获得 新 的 进展 。 


本 节 的 目的 是 介绍 Python 的 数据 科学 工具 ， 以 及 后 续 章 节 中 将 用 到 的 Python 生态 系统 的 部 
分 内 容 。 


Python 是 适用 于 数据 分 析 项 目的 最 有 趣 的 语言 之 一 ， 以 下 是 一 些 理由 : 
口 声明 式 和 直观 式 语 法 
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D 数据 处 理 的 丰富 生态 系统 
D 高 效 性 


优雅 的 语法 使 得 Python 的 学 习 曲 线 比 较 平缓。 作为 一 种 动态 的 解释 性 语言 ， 它 推动 了 快速 
开发 和 交互 式 探索 的 发 展 。 接 下 来 将 对 数据 处 理 的 生态 系统 进行 部 分 介绍 , 即 本 书 会 用 到 的 主要 
的 包 。 


从 效率 方面 来 说 ， 解 释 性 的 高 级 语言 并 不 以 快速 著称 。 像 NumPy 这 样 的 工具 在 底层 与 低级 
库 挂 钩 ， 并 用 友好 的 Python 界面 来 实现 较 高 的 效率 。 此 外 ， 很 多 项 目 使 用 Python 的 超级 子 集 
Cython， 它 通过 允许 定义 强 变 量 类 型 并 用 C 话 言 编译 来 丰富 Python 语言 。Python 世界 中 的 很 多 
其 他 项 目 正在 尝试 解决 效率 问题 ， 以 期 使 纯 Python 实现 更 加 快速 。 本 书 不 会 深入 介绍 Cython 或 
上 述 任何 项 目 ， 我 们 只 会 用 NumPy (特别 是 通过 使 用 了 NumPy 的 其 他 库 ) 来 进行 数据 分 析 。 



























































1.3.1 ”Python 开发 环境 的 安装 

当 开始 撰写 本 书 时 ，Python 3.5 刚刚 发 布 ， 甚 最 新 的 一 些 功能 受到 了 广泛 关注 ， 例 如 ， 进 一 
步 支持 异步 编程 和 类 型 提示 的 语义 定义 。 就 使 用 来 说 ，Python 3.5 可 能 还 没有 普及 ， 但 是 它 代表 
了 这 门 语言 的 当前 发 展 状况 。 























(全 本 书 中 的 示例 与 Python 3 兼容 ， 特 别 是 3.4+ 和 3.5+ 版 本 。 
































在 无 休止 地 讨论 使 用 Python 2 还 是 Python 3 时 , 需要 注意 的 一 点 是 , 对 Python 2 的 支持 将 在 
儿 年 后 (在 撰写 本 书 时 ,该 时 间 节 点 是 2020 年 ) 消失 。 届 时 Python 2 将 不 再 支持 新 的 功能 ， 只 
会 进行 一 些 bug 修复 。 另 一 方面 ,很 多 库 仍 然 选 择 先 为 Python 2 开发 ,然后 再 加 上 对 Python 3 的 
支持 。 因 此 ， 某 些 库 可 能 会 存在 兼容 性 问题 ， 但 这 些 兼 容 性 问题 很 快 就 会 被 社区 解决 。 总 之 ， 如 
果 没 有 强烈 的 理由 影响 选择 ， 应 该 选择 Python 3 ， 特 别 是 对 新 项 目 来 说 。 
































1. pip 和 virtualenv 


为 了 保持 开发 环境 的 整洁 ， 并 简化 从 原型 到 生产 的 转变 ， 建 议 使 用 virtualenv 来 管理 虚 
拟 环境 并 安装 依赖 。virtualenv 是 一 个 创建 并 管理 独立 Python 环境 的 工具 。 通 过 使 用 一 个 独 
立 的 虚拟 环境 ， 开 发 者 可 以 避免 用 互 不 兼容 的 库 来 污染 全 局 Python 环境 。 这 些 工 具 允 许 我 们 维 
护 多 个 需要 不 同 配 置 的 项 目 , 并 轻松 地 进行 项 目的 切换 。 更 重要 的 是 ， 虚拟 环境 可 以 安装 在 一 个 
本 地 文件 夹 中 ， 用 户 不 需要 管理 者 权限 就 可 以 使 用 。 


为 了 在 全 局 Python 环境 中 安装 virtualenv 以 供 所 有 用 户 使 用 ， 可 以 在 终端 (Linux/Unix ) 
或 命令 窗口 ( Windows ) 使 用 pip 命令。 





















































$ [sudo]l pip install virtualenv 
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如 果 当 前 用 户 没 有 系统 管理 者 权限 ,那么 Linux/Unix 或 者 macOS 可 能 需要 sudo 命令 。 





如 果 一 个 包 已 经 安装 完毕 ， 那 么 可 以 用 以 下 命令 将 其 升级 到 最 新 版 本 。 





$ pip install --upgrade [package name] 


自 Python 3.4 后 ，pip 工具 已 经 集成 在 Python 中 了 。 之 前 的 版 本 需要 单独 安装 
和 pip, 具体 的 安装 方法 参见 其 项 目 主页 。 也 可 以 用 以 下 命令 将 其 升级 到 最 新 版 本 。 
$ pip install --upgrade pip 
当 virtualenyv 全 局 可 用 后 ， 对 于 每 个 项 目 ， 都 可 以 定义 一 个 单独 的 Python 环境 ， 其 中 依 
赖 是 独立 安装 的 ， 不 会 干扰 全 局 环境 。 这 样 ， 跟 踪 某 个 项 目 所 需要 的 依赖 就 变 得 非常 简单 。 
可 以 遵循 以 下 步骤 建立 虚拟 环境 。 


$ mkdir my_new_project # 创建 一 个 新 的 项 目 文件 天 

$ cd my_new_ project # 进入 项 目 文 件 夹 

$ virtualenv my_env # 安装 自 定义 的 虚拟 环境 

以 上 步骤 会 创建 一 个 名 为 my_env 的 子 文 件 夹 ， 这 也 是 我 们 在 当前 路 径 创建 的 虚拟 环境 的 名 
称 。 在 该 子 文件 夹 中 ， 我 们 拥有 创建 独立 Python 环境 所 需 的 所 有 工具 ， 其 中 包括 Python 二 进 制 
文件 和 标准 库 。 为 了 激活 该 环境 ， 可 以 输入 以 下 命令 。 


























$ source my_env/bin/activate 

一 旦 环境 被 激活 ， 命 令 窗 口 就 会 出 现 以 下 提示 。 
(my_env)s 

可 以 用 pip 在 该 环境 中 安装 Python 包 。 
(my_env)$ pip install [package-name] 


当 环 境 处 于 激活 状态 时 ,使 用 pip 安装 的 所 有 新 Python 库 会 安装 到 my_env/lib/python 


{VERSION}/site-packages。 注 意 ,这 是 一 个 本 地 文件 夹 ， 因 此 不 需要 管理 员 权 限 就 可 以 执行 这 个 
命令 。 





当 想 要 退出 虚拟 环境 时 ， 可 以 使 用 以 下 简单 命令 。 


$ deactivate 





前 面 描述 的 过 程 适用 于 Python 的 官方 发 行 版 ， 你 可 以 下 载 适 用 自己 操作 系统 的 相应 版 本 。 
2. Conda、Anaconda 和 Miniconda 


此 外 ， 还 可 以 考虑 一 个 名 为 Conda 的 选项 。 因 为 它 使 包 的 依赖 管理 变 得 非常 简单 ， 所 以 在 
科学 社区 中 备 受 关注 。Conda 是 一 个 开源 的 包 管 理 器 和 环境 管理 器 ， 可 用 于 安装 多 种 版 本 的 软件 
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包 ( 以 及 相关 的 依赖 ) 这 允许 我 们 轻松 地 从 一 个 版 本 切换 到 男 一 个 版 本 。 它 支持 Linux 、macOS 


和 Windows。 虽 然 最 初 是 为 Python 创建 的 ， 但 是 Conda 可 用 于 任意 软件 的 打包 和 分 发 。 
Conda 现在 主要 有 两 个 发 行 版 :完备 的 Anac 





个 科学 计算 包 ， 后 


如 果 你 是 Python 新 手 ， 有 时 间 下 载 较 大 的 安装 文件 ， 拥 有 足够 的 磁盘 空间 ， 并 且 不 
































onda 和 轻 量 级 的 Miniconda , 其 中 前 者 装 有 约 100 
者 仅 带 有 Python 和 Conda 安装 器 ， 不 带 外 部 库 。 











愿 旺 
TN DY 


动 安装 所 有 包 , 那么 可 以 从 Anaconda 开始 。 对 于 Windows 和 macOS 来 说 , 可 以 使 用 图 形 界面 或 
命令 行 安装 器 安装 Anaconda。 图 1-5 展示 了 macOS 上 Anaconda 安装 步 又 的 截图 。 对 于 Linux， 

装 器 。 所 有 系统 都 可 以 选择 安装 Python 2 或 者 Python 3。 如 果 和 希望 全 面 掌控 自 
己 的 系统 ， 那 么 Miniconda 将 是 你 的 最 佳 选 择 。 





只 能 使 用 命令 行 安 





eeoe 


晤 Install Anaconda3 








@ Introduction 

日 Read Me 

® License 

® Destination Select 
® Installation Type 
®@ Installation 


@Summary 


ANACONDA 


六 ec 





Important Information 








Anaconda is a modern open source analytics platform powered 
by Python. See https://www.continuum.io/downloads/. 


By default this installer modifies your bash profile to put 
Anaconda in your PATH. To disable this, choose "Customize" at 
the "Installation Type" phase, and disable the "Modify PATH" 
option. If you do not do this, you will need to add ~/anaconda/ 
bin to your PATH manually to run the commands, or run all 
anaconda commands explicitly from that path. 


To install to a different location, select "Change Install 
Location..." at the "Installation Type" phase, the choose "Install 
on a specific disk...", choose the disk you wish to install on, and 
click "Choose Folder...". The "Install for me only" option will 
install anaconda to the default location, ~/anaconda. 


The packages included in this installation are: 
python 3.5.1 














Go Back | Continue 





图 1-5 Anaconda 安装 步 又 的 屏幕 截图 
安装 了 选择 的 Conda 版 本 后 ， 可 以 使 用 以 下 命令 来 创建 一 个 新 的 Conda 环境 。 











$ conda create --name my_env python=3.4 # 或 者 你 更 喜欢 的 版 本 


用 以 下 命令 激 


活 环 境 。 


$ conda activate my_ env 


与 virtualenv 类 似 ， 窗 口中 会 提示 环境 的 名 称 。 


(my_env)$ 


可 以 用 以 下 命令 为 这 个 环境 安装 新 的 包 。 


$ conda install [package-name] 
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最 后 ， 可 以 通过 以 下 命令 退出 环境 。 





$ conda deactivate 

Conda 的 男 一 个 良好 特性 是 也 支持 用 pip 来 安装 包 。 因 此 ， 如 果 无 法 通过 conda install 
获取 一 个 库 ， 或 者 该 库 还 没有 更 新 到 最 新 版 本 ， 那 么 我 们 可 以 总 是 回 退 到 传统 的 Python 包 管 理 
器 ， 同 时 使 用 Conda 环境 。 


如 果 未 特别 指定 ，Conda 默认 会 在 https://anaconda.org 中 查找 包 , 而 bip 会 用 PyPl (Python 
Package Index， 也 称 作 CheeseShop ) 在 https://pypi.python.org/pypi 中 查找 。 这 两 种 安装 器 都 
可 以 指定 从 本 地 文件 系统 或 私有 仓库 中 安装 包 。 


接 下 来 我 们 将 用 pip 安装 所 需要 的 包 ， 但 如 果 习 惯 使 用 Conda， 你 也 可 以 很 容易 地 切换 成 
Conda。 






























































1.3.2 ”高 效 的 数据 分 析 
本 节 会 介绍 用 于 Python 科学 计算 的 两 个 基础 包 : NumPy 和 pandas。 


NumPy ( 数值 Python ) 提供 了 快速 且 高 效 的 处 理 或 类 似 于 数组 的 数据 结构 。 对 于 数值 数据 来 
说 ,用 Python 内 置 的 数据 结构 〈 如 列表 或 字典 ) 进行 存储 和 操作 比 用 NumPy 数组 要 慢 得 多 。 此 
外 , 其 他 库 经 常 将 NumPy 数组 当 作 输 入 或 输出 不 同 算法 的 容器 , 这些 算法 需要 进行 向 量化 操作 。 


为 了 用 pip 或 者 virtualenv 安装 NumPy， 可 以 使 用 以 下 命令 。 














$ pip install numpy 


当 使 用 完备 的 Anaconda 发 行 版 时 ， 开 发 者 会 发 现 NumPy 和 pandas 都 已 经 预先 安装 好 了 ， 
因此 不 需要 上 述 安 装 步骤 。 


这 个 库 的 核心 数据 结构 是 名 为 ndaarray 的 多 维 数组 。 
在 交互 式 编译 器 中 运行 时 ， 以 下 代码 展示 了 如 何 用 NumpPy 生成 一 个 简单 的 数组 。 



































>>> import numpy as np 

>>> data = [1，2，3] # 一 个 整 型 列表 
>>> my_arr = np.array (data) 
>>> my_arr 

array([1, 2, 3]) 

>>> my_arr.shape 

(3,) 

>>> my_arr.dtype 
dtype('int64') 

>>> my_arr.ndim 

二 
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该 示例 表明 ， 我 们 的 数据 由 一 个 包含 3 个 元 素 的 一 维 数组 ( naim 属性 ) 表示 。 数 组 的 数据 | 





类 型 是 int64， 因 为 输入 的 所 有 数据 都 是 整 型 。 


通过 用 timeit 模块 来 分 析 一 个 简单 的 操作 ( 如 列表 的 求 和 ), 我 们 可 以 观察 NumPy 数组 的 
速度 。 
# Chap01/demo_numpy .py 


from timeit import timeit 
import numpy as np 





站 和 name., == '__ main 
setup_sum = 'data = list(range(10000))' 
setup_np = 'import numpy as np;' 


setup_np += 'data_np = np.array (list (range(10000)))' 


run_sum = 'result = sum(data)' 
run np = 'result = np.sum(data _ np)' 


time_sum = timeit (run_sum, setup=setup_sum, number=10000) 
time np = timeit (run np, setup=setup_np, number=10000) 





print ("Time for built-in sum(): {}".format (time_ sum)) 
print ("Time for np.sum(): {}".format (time_np)) 


timeit 模块 将 一 段 代码 作为 第 一 个 参数 ， 并 多 次 执行 这 段 代 码 ， 然 后 将 代码 的 运行 时 间作 
为 输出 。 为 了 专注 于 我 们 想 要 分 析 的 代码 段 ， 在 setup 参数 中 设置 初始 的 数据 准备 和 需要 的 包 
的 导入 , 这 些 过 程 只 会 执行 一 次 且 不 会 计算 在 统计 时 间 内 。 最 后 的 参数 number 限制 了 迭代 的 次 
数 为 10 000 次 ， 而 不 是 默认 的 1 000 000 次 。 你 观察 到 的 输出 应 该 如 下 所 示 。 


Time for built-in sum(): 0.9970562970265746 
Time for np.sum(): 0.07551316602621228 


内 置 的 sum() 函数 比 NumPy 的 sum() 函数 慢 10 倍 。 对 于 更 复杂 的 代码 , 我 们 也 可 以 观察 到 
很 明显 的 数量 级 差异 。 


命名 惯例 
Python 社区 汇集 了 一 些 事实 标准 来 导入 一 些 流 行 的 库 。NumPy 和 pandas 就 是 两 
个 著名 的 示例 ， 因 为 通常 用 别名 导入 它们 ， 如 下 所 示 。 

import numpy as np 
这 样 一 来 ， 前 面 示 例 中 的 NumPy 函数 可 以 以 np.Efunction name () 的 方式 使 
用 。 类 似 地 ，pandas 库 的 别名 是 pda。 原则 上 ， 用 from numpy import * 导 入 
库 的 所 有 命名 空间 是 一 种 非常 不 好 的 做 法 ， 因 为 这 会 污染 当前 的 命名 空间 。 


以 下 是 我 们 需要 记 住 的 NumPy 数组 的 一 些 特征 。 


口 NumPy 数 组 的 大 小 在 创建 时 就 固定 了 ， 不 像 Python 列表 那样 可 以 动态 改变 。 因 此 ， 改 变 
数组 大 小 的 操作 实际 上 是 创建 一 个 新 的 数组 并 删除 原来 的 数组 
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存 大 小 ) 














口 数组 中 每 个 元 素 的 数据 类 型 必须 一 致 〈 由 对 象 组 成 的 数组 例外 ， 因 此 可 能 导致 不 同 的 内 














口 NumPy 鼓励 使 用 向 量 操作 ， 这 样 代码 会 更 紧凑 易 读 
本 节 要 介绍 的 第 二 个 库 是 pandas。 因 为 建立 在 NumPy 之 上 ， 所 以 它 也 提供 了 非常 快速 的 计 





算 ， 以 及 名 为 Series 和 DataFrame 的 便利 数据 结构 ， 人 允许 我 们 灵活 并 准确 地 操作 数据 。 
以 下 是 pandas 中 非常 好 的 一 些 功能 : 








口 整合 了 夯 





口 实现 数据 操作 的 快速 且 高 效 的 对 象 

口 读 写 不 同 格式 ( CSV、 文 本 文件 、MS Excel 表格 或 SQL 数据 结构 ) 数据 的 工具 
口 智能 地 处 理 缺 失 数 据 及 相关 的 数据 对 齐 

口 对 大 数据 集 进行 基于 标签 的 切片 和 分 段 

口 类 似 SQL 的 数据 聚合 和 数据 转换 

口 支持 时 间 序列 功能 





图 功能 





可 以 用 以 下 命令 从 CheeseShop 安装 pandas。 


$ pip install pandas 


以 下 是 一 个 在 Python 交互 式 编译 器 中 运行 的 示例 ， 其 中 使 用 的 是 编造 出 来 的 用 户 数据 。 





>>> import 
>>> data = 



































pandas as pd 
{'user id': [1, 2, 3, 4], 'age': [25, 35, 31, 19]} 


>>> frame = pd.DataFrame(data, columns=['user id', 'age']) 
>>> frame.head() 


user_id 


WPO 
心 w N 


age 
25 























最 初 的 数据 布局 是 基于 字典 的 ， 其 中 键 是 用 户 的 属性 (用 户 ID 和 年 纪 )。 字典 中 的 值 是 用 列 
表 表 示 的 , 对 于 每 个 用 户 来 说 , 相应 的 属性 是 按照 位 置 对 齐 的 。 一旦 用 这 些 数据 创建 DataFrame， 
数据 的 对 齐 格 式 会 立刻 变 得 非常 清楚 。neagd () 函数 能 够 以 表格 的 形式 打印 出 数据 ， 并 且 当 数据 
过 大 时 ， 它 只 会 打印 出 前 10 行 。 


现在 我 们 在 DataFrame 中 添加 一 列 。 


>>> framel[' 






































over thirty'] = frame['age'] > 30 


>>> frame.head() 


user_id 


WOPO 
OD 


age over thirty 


25 False 
35 True 
31 True 
19 False 


1.3 Python 的 数据 科学 工具 17 














如 果 使 用 pandas 的 声明 式 语 法 ， 就 不 需要 迭代 所 有 列 来 获得 相应 的 数据 ， 而 是 如 前 面 的 示 
例 所 示 ， 可 以 使 用 一 个 类 似 于 SQL 的 操作 。 这 个 操作 用 现 有 数据 来 创建 一 个 由 布尔 值 组 成 的 列 。 
还 可 以 按照 以 下 方式 添加 新 列 。 





>>> frame['likes python'] = pd.Series([True, False, True, Truel], 
index=frame .index) 
>>> frame.head() 

user id age over thirty likes python 


0 1 25 False True 
1 2 35 True False 
2 3 31 True True 
3 4 19 False True 


可 以 用 descripe() 方 法 来 观察 一 些 基本 的 描述 性 统计 结 


>>> frame.describe() 
user_ id age over thirty likes python 


count 4.000000 4.0 4 4 
mean 2.500000 27.5 0.5 0.75 
std 1.290994 7.0 0.57735 0.5 
min 1.000000 19.0 False False 
25% 1.750000 23.5 0 0.75 
50% 2.500000 28.0 0.5 1 
75% 3.250000 32.0 生 1 
max 4.000000 35.0 True True 
如 以 上 结果 所 示 ，50% 的 用 户 超 过 30 岁 ，75% 的 人 喜欢 Python。 
下 载 示例 代码 


前 言 介 绍 了 下 载 代码 的 详细 步骤 。 

各 GitHub 中 也 有 本 书 的 代码 : https://github.com/bonzanini/Book-SocialMediaMining- 
Python。 还 可 以 在 https://github.com/PacktPublishing/ 中 找到 其 他 Packt 图 书 的 代 
码 和 视频 。 


1.3.3 ”机 器 学 习 


机 噩 学 习 是 构建 算法 以 从 数据 中 学 习 并 进行 预测 的 学 科 。 它 和 数据 挖掘 紧密 相关 ,有 时 这 两 
个 领域 的 概念 可 以 互 换 。 这 两 个 领域 的 主要 区 别 在 于 : 机 天 学 习 侧重 于 基于 数据 的 已 知 属性 进行 
预测 , 而 数据 挖掘 则 侧重 于 基于 数据 的 未 知 属性 发 现 新 的 信息 。 两 个 领域 会 相互 借鉴 算法 和 技术 。 
本 书 的 目的 之 一 是 实用 ， 因 此 ， 虽 然 这 两 个 领域 在 学 术 上 有 很 多 重合 ， 也 有 各 自 的 目标 和 假设 ， 
但 本 书 不 会 纠结 于 这 些 细节 。 


以 下 是 机 天 学 习 的 几 个 应 用 示例 。 


口 判断 收 到 的 电子 邮件 是 否 为 垃圾 邮件 
口 从 已 知 的 主题 ( 如 体育 、 经 济 或 政治 ) 中 为 一 篇 新 文章 选择 话题 
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口 分 析 银 行 交易 数据 ， 从 中 识别 诈骗 
口 对 于 apple 这 个 词 的 查询 ， 判 断 用 户 的 意图 是 查找 水 果 还 是 查找 计算 机 


机 器 学 习 中 最 流行 的 一 些 方法 可 以 分 为 监督 学 习 和 无 监督 学 习 两 类 , 接 下 来 会 具体 介绍 。 当 
然 , 这 种 简单 的 划分 并 不 能 代表 机 器 学 习 领 域 的 广度 和 深度 ,但 这 是 我 们 了 解 其 术语 的 一 个 良好 
起 点 。 


监督 学 习 可 以 用 来 解决 分 类 这 样 的 问题 。 在 分 类 问题 中 ,数据 带 有 和 额外 的 属性 ， 而 我 们 想 要 
预测 类 的 标签 。 在 这 种 情况 下 ， 分 类 器 会 将 每 个 输入 对 象 与 期 望 输出 关联 起 来 。 然 后 分 类 器 基于 
输入 对 象 的 特征 进行 推断 ， 为 新 的 未 见 输 入 预测 期 望 标签 。 监 督学 习 的 常用 方法 有 朴素 贝 叶 斯 
(naive Bayes，NB )、 支 持 向 量 机 ( support vector machine，SVM ) 和 神经 网 络 (neural network， 
NN ) 系列 模型 ， 如 感知 器 或 多 层 感 知 器 。 


学 习 算 法 用 来 构建 数学 模型 的 样本 输入 称 作 训练 数据 , 而 我 们 想 要 预测 的 未 见 输入 称 为 测试 
数据 。 机 器 学 习 算 法 的 输入 通常 是 向 量 形式 的 , 向量 的 每 个 元 素 表 示 输 入 的 一 个 特征 。 在 监督 学 
习 中 ， 指 定 给 每 个 未 见 和 输入 的 期 望 输出 通常 称 作 标签 或 目标 。 


无 监督 学 习 应 用 于 已 知 数据 并 不 带 有 标签 的 问题 。 这 类 问题 的 一 个 典型 示例 就 是 聚 类 。 在 聚 
类 问题 中 , 算法 会 试图 寻找 数据 中 的 隐藏 结构 ， 以 便 将 相似 的 项 分 为 一 类 。 另 一 个 应 用 是 识别 不 
员 于 特定 组 的 项 〈 如 异常 点 检测 )。 最 常用 的 聚 类 算法 是 k-means。 


用 于 机 器 学 习 的 主要 Python 包 是 scikitlearn， 它 是 一 个 开源 的 机 器 学 习 算 法 集合 , 其 中 包括 
了 获取 和 预 处 理 数据 、 评 估算 法 的 输出 ， 以 及 对 结果 进行 可 视 化 的 工具 。 


你 可 以 用 以 下 步骤 从 CheeseShop 下 载 scikit-learn。 


$ pip install scikit-learn 
本 书 不 会 深入 介绍 这 些 机 器 学 习 方法 ， 而 是 直接 用 scikit-learn 来 解决 一 个 聚 类 问题 。 
到 目前 为 止 ， 我 们 还 没有 社交 数据 ， 因 此 可 以 使 用 scikit-learn 提供 的 一 个 数据 集 。 


我 们 将 使 用 Fisher 的 间 尾 花 数据 集 ,， 它 是 Ronald Fisher 在 20 世纪 30 年 代 创 造 的 , 并 且 是 目 
前 最 经 典 的 数据 集 之 一 : 由 于 数据 量 较 少 , 它 通 常 在 文献 中 用 作 简 单 的 示例 数据 。 萝 尾 花 数据 集 
中 共有 3 种 芒 尾 花 ， 每 种 花 有 50 个 示例 数据 ， 而 数据 由 4 个 特征 组 成 :花瓣 的 长 度 、 花 瓣 的 宽 
度 、 花 莹 的 长 度 和 花 苯 的 宽度 。 


蕊 尾 花 数据 集中 的 每 个 示例 数据 都 带 有 正确 的 标签 ， 所 以 常用 作 分 类 问题 的 示例 , 而 比较 少 
用 于 聚 类 问题 ,主要 是 因为 只 有 两 个 有 明显 区 别 的 艇 。 因 为 这 尾 花 数据 集 较 小 旦 结构 简单 ， 所 以 
我 们 用 它 来 介绍 如 何 使 用 scikit-learn 进行 数据 分 析 。 如 果 想 要 运行 示例 代码 , 包括 数据 可 视 化 部 
分 ， 那么 还 需要 用 pip install matplotlip 来 安装 matplotlib 库 。 本 章 后 面 还 会 更 详细 地 介 
绍 数据 可 视 化 。 
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先 查 看 以 下 示例 代码 。 


# Chap0l/demo_sklearn.py 
from sklearn import datasets 


from sklearn.cluster import KMeans 


import matplotlib.pyplotas plt 





if marme Sa * ain 
# 导入 数据 
iris = datasets.1load_iris() 
XxX = iris. data 
petal_length = XxX[:, 2] 
petal width = XxX[:, 3] 


true_labels = iris.target 
# 应 用 k-means 有 聚 类 
estimator = 
estimator.fit (x) 
predicted_ labels = 





# 颜色 定义 方案 : 红 、 黄 、 蓝 

GOLOr SChenme, Se "Ei 
# 标记 定义 : 圆圈 、 又 和 加 号 

marker_list = ['o', 'x', 


# 将 颜色 /标记 指定 给 预测 标签 
colors_predicted_ labels = 


[color_scheme[lab] 


KMeans (n_clusters=3) 


estimator.labels_ 


Db"] 


Ur | 


for lab in 


predicted_ labels] 


markers_predicted = 


[marker_list[lab] 


for lab in 


predicted_ labels] 


# 将 颜色 /标记 指定 给 真实 标签 
colors_true_labels = 
markers_true = 
# 绘制 并 保存 两 幅 散 点 图 


TOE Rr Yr 0 


[color_scheme[lab] 
[marker_list[lab] 


for lab in true_ labels] 
for lab in true_ labels] 


m in zip(petal_ width, 


petal_length, 
colors_predicted_labels, 
markers_predicted): 


plt.scatter (x, 


yY, C=C, 


marker=m) 


plt.savefig('iris_clusters.png') 


I 


m in zip(petal_width, 


petal_length, 
colors_true_labels, 
markers_true): 


plt.scatter (x, 


Ys CECs 


marker=m) 


plt.savefig('iris true_labels.png') 


print (iris.target_ names) 


























首先 ， 我 们 将 数据 集 导 入 iris 变量 ， 该 变量 是 一 个 包含 数据 及 其 信息 的 对 象 。 具体 来 说 ， 
iris.data 包含 数据 本 身 ， 数据 的 形式 是 一 个 NumPy 数组 或 普通 数组 ， 而 1iris.target 包含 





一 个 数值 标签 ， 该 标签 表示 该 数据 所 








属 的 类 。 在 每 个 示例 向 量 中 ， 其 中 的 4 个 值 分 别 表示 花 莹 


的 长 度 (单位 : 厘米 )、 花 葛 的 宽度 〈 单 位 : 厘米 )、 花 泊 的 长 度 (单位 : 厘米 )、 花 瓣 的 宽度 
(单位 : 厘米 )。 利 用 NumPy 数组 的 切片 功能 ， 可 以 抽取 出 第 3 个 和 第 4 个 元 素 ， 然 后 分 别 赋 给 
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petal_length 和 petal_wiath 变量 。 我 们 将 用 这 两 个 变量 画 出 示例 数据 的 二 维 表示 ,尽管 向 
量 是 四 维 的 。 


聚 类 过 程 仅 仅 包含 两 行 代码 : 一 行 用 于 创建 kMeans 算法 的 一 个 实例 , 另 一 行 用 fit () 函数 
对 数据 使 用 聚 类 模型 。 这 种 简洁 的 接口 是 scikit-learn 的 特征 之 一 , 它 让 你 在 大 多 数 情况 下 只 使 用 
几 行 代码 就 能 应 用 一 个 学 习 算 法 。 对 于 k-means 算法 的 应 用 ， 我 们 选择 簇 的 数量 为 3。 需 要 注意 
的 是 ,在 实际 运用 中 很 难 提前 确定 篮 的 数量 。 确 定 正确 的 复数 量 本 身 就 是 一 个 挑战 ,并 且 取决 于 
聚 类 算法 本 身 。 这 里 列举 示例 是 为 了 简单 介绍 scikit-learn 及 其 接口 的 简单 性 , 因此 简化 了 复数 量 
的 确定 方式 。 通 常情 况 下 ， 大 量 的 工作 都 在 于 将 数据 处 理 为 scikit-learn 可 以 理解 的 格式 。 


上 述 示例 中 第 二 个 部 分 的 目的 是 用 matplotlib 对 数据 进行 可 视 化 ,我 们 先 利 用 在 color_scheme 
列表 中 定义 的 红 、 黄 和 蓝 三 种 颜色 ， 定 义 一 种 颜色 方案 来 区 分 三 个 篮 。 接 下 来 ， 因 为 真实 的 标签 
和 聚 类 结果 是 以 从 0 开始 的 整数 表示 的 ， 所 以 它们 可 用 作 索 引 ， 与 其 中 一 种 颜色 匹配 。 


注意 ， 虽 然 真实 标签 的 数量 与 标签 的 特定 含义 ( 即 类 名 ) 相关 ， 但 篮 的 数量 仅 用 于 表明 数据 
属于 某 一 个 复 ， 并 不 包含 有 关 簇 含义 的 相关 信息 。 在 本 例 中 ， 真 实 标签 的 三 个 类 是 setosa、 
versicolor 和 virginica, 分 别 代表 数据 集中 药 尾 花 的 三 个 品 


示例 中 的 最 后 几 行 代码 生成 了 两 幅 散 点 图 : 一 个 是 真实 的 标签 ， 另 一 个 是 聚 类 结果 。 两 图 中 
用 花 浴 的 长 度 和 宽度 作为 x 轴 和 了 轴 ， 如 图 1-6 所 示 。 在 两 幅 图 中 ， 项 的 位 置 当 然 是 相同 的 ， 但 
我 们 可 以 观察 到 算法 如 何 将 数据 分 割 为 3 个 组 。 具 体 来 说 ， 左 下 方 的 簇 明显 区 别 于 其 他 两 个 簇 ， 
毫 无 疑问 , 算法 可 以 很 轻松 地 将 其 识别 出 来 。 而 其 他 两 个 簇 则 更 难 区 分 , 因为 部 分 元 素 是 重合 的 ， 
所 以 算法 存在 误 分 类 。 
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图 1-6 高 尾 花 数据 的 二 维 表 示 ， 根 据 真实 标签 ( 左 ) 和 聚 类 结果 ( 右 ) 着 色 


需要 再 次 强调 的 是 ,之 所 以 能 发 现 误 分 类 ,是 因为 我 们 知道 每 个 数据 的 真实 类 。 该 算法 基于 
输入 数据 的 特征 创建 了 一 个 输入 与 输出 的 相关 关系 。 
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1.3.4 自然 语言 处 理 


自然 语言 处 理 是 一 门 研 究 有 关 自 动 分 析 、 理解 和 生成 自然 语言 的 方法 和 技术 的 学 科 , 其 中 自 
然 语言 包括 人 类 自然 书写 和 口述 的 语言 。 


从 学 术 的 角度 来 看 ,自然 语言 处 理 是 一 个 活路 了 很 多 年 的 领域 , 其 早期 的 发 展 归功 于 计算 机 
科学 之 父 之 一 的 艾 伦 ' 图 灵 。 他 在 1950 年 提出 了 一 个 测试 来 评估 机 顺 的 智力 ， 理 念 非常 直 白 : 
如 果 一 个 人 类 裁判 与 两 个 代理 〈 分别 是 机 器 和 人 类 ) 进行 书面 会 话 , 那么 机 器 能 让 裁判 认为 其 不 
是 一 台 机 顺 吗 ?如 果 能 ， 那 么 机 需 就 通过 了 测试 ， 表 明 它 具备 了 智能 。 


这 个 测试 就 是 大 家 今天 熟知 的 图 灵 测 试 ， 它 在 很 长 一 段 时 间 内 仅仅 是 计算 机 科学 领域 的 常 
识 ， 而 现在 已 通过 大 众 媒 体 为 更 多 人 所 知 。2014 年 上 映 的 电影 《模仿 游戏 》 就 是 基于 艾 伦 : 图 
灵 的 生平 改编 的 ， 片 名 也 清楚 地 指 代 了 图 灵 测 试 本 身 。 与 图 灵 测 试 相关 的 男 一 部 电影 是 2015 年 上 
映 的 《机 械 姬 》 该 片 强调 了 人 工 智能 的 发 展 可 以 使 得 其 为 了 自身 利益 而 欺骗 并 愚弄 人 类 。 片 中 ， 
人 类 裁判 和 人 形 机 器 人 Ava 通过 直接 的 言语 交互 进行 了 图 灵 测 试 。 这 里 我 们 不 会 向 还 未 看 过 这 部 
电影 的 人 剧 透 结果 ， 但 影片 中 人 工 智能 以 阴暗 狭 独 的 方式 变 得 越 来 越 聪明 ， 而 且 比 人 类 更 聪明 。 
有 趣 的 是 ,未 来 的 机 器 人 是 通过 搜索 引擎 日 志 进 行 训练 的 ， 以 便 其 理解 和 模仿 人 类 提问 的 方式 。 


介绍 人 工 智能 的 历史 和 假想 未 来 是 为 了 强调 掌握 人 类 语言 对 于 高 级 人 工 智能 发 展 至 关 重 要 。 
尽管 近 几 年 有 较 大 发 展 , 但 人 工 智能 仍然 没有 达到 掌握 人 类 语言 的 终极 目标 ,自然 语言 处 理 仍 然 
是 当前 的 一 个 热门 主题 。 


在 社会 媒体 的 竞争 中 ,大 量 的 自然 语言 等 待 挖 气 ， 这 对 我 们 来 说 就 意味 着 机 会 。 社 会 媒体 上 
的 文本 数据 在 持续 增长 , 很 多 问题 或 许 已 经 有 了 答案 , 但 将 原始 文本 转换 为 信息 仍然 不 是 一 个 简 
单 的 任务 。 社 会 媒体 上 时 刻 都 在 产生 对 话 ， 人 们 在 网 络 论坛 上 提出 技术 问题 并 查找 答案 , 用 户 通 
过 评论 措 述 他 们 使 用 某 款 产品 的 体验 。 了 解 这 些 对 话 的 话题 、 找 到 回答 问题 的 专家 用 户 、 理 解 所 
写 评论 的 顾客 的 意见 ， 这 些 任务 都 可 以 通过 自然 语言 处 理 实现 ， 并 且 达 到 一 定 的 准确 度 。 


回 到 Python ， 其 中 最 流行 的 自然 语言 处 理 包 是 NLTK ( Natural Language Toolkit， 自 然 语 言 工 
具 包 )。 该 工具 包 为 很 多 常见 的 自然 语言 处 理 任 务 提 供 了 一 个 友好 的 界面 ， 以 及 词汇 资源 和 话 言 
学 数据 。 


我 们 可 以 用 NLTK 轻松 完成 一 些 任务 ， 如 下 所 示 。 


口 对 单词 和 句子 进行 分 词 ， 即 将 文本 分 解 为 单个 词 项 

口 对 单词 进行 词性 标注 ， 即 识别 单词 的 句法 功能 ， 如 名 词 、 副 词 、 动 词 等 
口 识别 命名 实体 ， 例 如 ， 识 别 并 对 人 物 、 地 点 、 机 构 实体 分 类 

口 将 机 咒 学 习 技术 〈 如 分 类 ) 应 用 于 文本 

口 从 原始 文本 中 抽取 信息 
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境 


件 事 了 。 另 一 方面 ， 


可 以 用 以 下 步骤 从 CheeseShop 安装 NLTK。 


$ pip install nltk 





NLTK 与 其 他 包 的 不 同 之 处 在 于 ， 该 框架 中 包含 了 针对 特定 任务 的 语言 资源 ( 即 数 据 )。 
为 尺寸 较 大 ， 所 以 这 部 分 数据 并 没有 包括 在 默认 安装 中 ， 而 是 需要 单独 下 载 。 


http:/wwwnltk.org/data.html 中 包含 详细 的 安装 步 又 ， 强 烈 建 议 你 阅读 该 官方 文档 。 

















可 以 在 Python 编译 器 中 输入 以 下 代码 。 


>>> import nltk 
>>> nltk.download() 














如 果 是 在 桌面 环境 中 ,上 述 代码 运行 后 会 打开 一 个 新 的 窗口 , 你 可 以 在 该 窗口 中 浏览 可 用 的 
数据 。 如 果 桌 面 环境 不 可 用 ,你 会 在 终端 中 看 到 一 个 文本 界面 。 你 可 以 选择 下 载 单独 的 包 ,， 也 可 
以 下 载 全 部 数据 〈 这 需要 约 2.2GB 的 磁盘 空间 )。 


如 果 你 是 在 管理 员 账 号 下 进行 操作 , 该 下 载 器 会 将 文件 存储 在 一 个 中 央 位 置 (Windows 中 的 
C:nltk data，Unix 和 Mac 中 的 /usr/share/nltk_data )。 如 果 你 是 普通 用 户 ， 下 载 器 会 将 数据 存储 在 
主 文件 夹 ( 如 ~/nltk_data ) 中 。 也 可 以 自 定 义 路 径 ， 但 这 样 你 就 需要 将 路 径 写 人 SNLTK_DATA 环 





























变量 ， 因 为 NLTK 会 查看 该 变量 来 确定 到 哪里 查找 需要 的 数据 。 




















如 果 磁 盘 空 间 足 够 的 话 , 安装 所 有 的 数据 可 能 是 最 方便 的 选项 , 因为 以 后 就 





也 不 用 考虑 这 























己 女 





下 载 所 有 东西 并 不 利于 你 搞 清 楚 自 己 将 需要 哪些 资源 。 如 果 希 望 全 面 控制 自 


装 的 东西 ， 可 以 一 个 一 个 地 下 载 包 。 这 样 一 来 ， 应 用 NLTK 时 可 能 会 碰 到 LookupError， 
这 意味 着 你 缺失 一 些 数 据 ， 并且 必须 下 载 。 


例如 ， 在 最 初 安 装 NLTK 后 ， 如 果 试 图 在 Python 解释 器 中 对 一 些 文本 进行 分 词 ， 可 以 输入 
以 下 代码 。 











>>> from nltk import word tokenize 

>>> word tokenize('Some sample text') 

Traceback (most recent call last): 

# 很 长 的 错误 追踪 

LookupError: 

尖 炎 淡淡 火炎 火炎 炎炎 炎炎 火炎 火炎 火炎 火炎 炎炎 炎炎 火炎 火炎 火炎 火炎 炎炎 火炎 火炎 火炎 炎炎 炎炎 火炎 火炎 火炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火炎 火炎 类 
Resource 'tokenizers/punkt/PY3/english.pickle' not found. 
Please use the NLTK Downloader to obtain the resource: >>> 
nltk.download() 

Searched in: 
- '/Users/marcob/nltk data' 
- '/usr/share/nltk_ data' 
- '/usr/local/share/nltk data' 
- '/usr/lib/nltk data' 
- '/usr/local/lib/nltk data' 


炎炎 火炎 火炎 炎炎 炎炎 炎炎 火炎 火炎 炎炎 火炎 炎炎 火炎 火炎 炎炎 火炎 炎炎 炎炎 火炎 火炎 火炎 炎炎 炎炎 火炎 炎炎 火炎 炎炎 炎炎 火炎 炎炎 火炎 火炎 火炎 火炎 火炎 火 
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这 个 错误 提示 我 们 ， 所 有 的 常规 文件 夹 中 都 未 找到 用 于 分 词 的 punkt 资源 ， 因 此 ， 我 们 得 
回 到 NLIK 下 载 需 来 解决 这 个 问题 


假设 现在 安装 了 NLTK 的 全 部 数据 ， 然 后 返回 前 面 的 示例 ， 并 详细 讨论 分 词 。 


在 自然 语言 处 理 中 ,分 词 (也 称 作 切 分 ) 是 将 一 段 文本 分 解 为 更 小 单元 ( 称 作 词 项 或 段 ) 的 过 
尽管 词 项 可 以 以 很 多 不 同 的 形式 解释 , 但 通常 我 们 更 关注 单词 和 句子 。 使 用 word_tokenize() 














个 简单 示例 如 下 所 示 。 
>>> from nltk import word tokenize 
>>> text = "The quick brown fox jumped over the lazy dog" 


>>> words = word tokenize(text) 
>>> print (words) 
# ['The', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog'] 


worq_tokenize() 的 输出 是 一 个 字符 串 列 表 ， 其 中 每 个 字符 串 表 示 一 个 单词 。 在 这 个 示例 
中 ， 单 词 的 边界 是 由 空白 给 出 的 。 同 样 ，sent_tokenize() 也 返回 一 个 字符 串 列 表 ， 其 中 每 个 
字符 串 表示 一 个 句子 ， 通 过 标点 符号 分 割 。 以 下 示例 用 到 了 这 两 个 函数 。 


>>> from nltk import word tokenize, sent tokenize 
>>> text = "The quick brown fox jumped! Where? Over the lazy dog." 
>>> sentences = sent tokenize(text) 
>>> print (sentences) 
#['The quick brown fox jumped!', 'Where?', 'Over the lazy dog.'] 
>>> for sentence in sentences: 

words = word tokenize(sentence) 

print (words) 












































和 [， The', 'quick', 'brown', 'fox', 'jumped', '!'] 
# ['Where', '?'] 
# ['Over', 'the', 'lazy', 'dog', '.'] 


可 以 看 到 ,标点 符号 本 身 也 被 视 为 词 项 ,包含 在 word_tokenize() 的 输出 中 。 这 提出 了 一 
个 新 的 问题 : 如 何 定义 一 个 词 项 ?” wora_tokenize () 函数 实现 的 算法 是 为 标准 英语 设计 的 ， 而 
本 书 关 注 的 重点 是 社会 媒体 数据 , 那 就 需要 探讨 一 下 标准 英语 的 规则 是 否 同样 适用 于 社会 媒体 内 
容 。 我 们 以 虚构 的 Twitter 数据 为 例 ， 如 下 所 示 。 









































>>> tweet = '@marcobonzanini: an example! :D http://example.com #NLP' 
>>> print (word tokenize(tweet) ) 
# ['@', 'marcobonzanini', ':', 'an', 'example', '!', ':', 'D', 'http', ':', 


'//example.com', '#', 'NLP'] 
以 上 示例 中 的 Twitter 数据 包含 一 些 特殊 符号 ， 破 坏 了 标准 的 分 词 。 
口 用 户 名 前 面 带 有 一 个 8 符号， 因此 @emarcobonzanini 被 分 为 两 个 词 项 ， 其 中 @ 被 当 作 标 


an i 


点 符号 
口 表情 符号 (如 :D) 在 聊天 、 短 信和 社会 媒体 中 很 常用 ,但 是 并 不 属于 标准 英语 ， 因 此 也 
被 分 割 了 
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口 URL 常用 于 分 享 文章 或 图 片 ， 但 同样 不 属于 标准 英语 ， 因 此 也 被 分 解 成 了 组 成 部 分 
口 散 列 标签 ( 如 #NLP ) 是 指 带 有 # 前 绥 的 字符 串 ， 用 于 定义 帖子 的 主题 ， 以 便 其 他 用 户 可 以 
很 轻松 地 搜索 特定 主题 或 跟踪 对 话 


前 面 的 示例 展示 了 像 分 词 这 样 明显 的 问题 会 隐藏 很 多 难以 处 理 的 情况 , 因此 需要 比 直觉 更 聪 
明 的 方法 来 解决 问题 。 好 在 NLTK 提供 了 以 下 解决 方案 。 






































>>> from nltk.tokenize import TweetTokenizer 
>>> tokenizer = TwitterTokenizer() 


>>> tweet = '@marcobonzanini: an example! :D http://example.com #NLP' 
>>> print (tokenizer.tokenize (tweet)) 
# ['@marcobonzanini', ':', 'an', 'example', '!', ':D', 


http://example.com', '#NLP'] 
这 个 示例 也 展示 了 NLTK 的 简单 接口 。 我 们 将 在 本 书 的 不 同 场景 中 使 用 该 框架 。 


随 着 自然 语言 处 理应 用 的 热度 持续 增长 ，Python-forNLP 生态 系统 近 几 年 来 也 在 疯狂 扩张 ， 
很 多 有 趣 的 项 目 获 得 了 越 来 越 多 的 关注 。 举 例 来 说 ， 被 称 为 为 人 类 设计 的 主题 模型 的 Gensim 是 
一 个 开源 库 ， 主 要 注重 于 语义 分 析 。Gensim 和 NLTK 了 好 用 的 接口 ， 因 此 被 加 上 
了 为 人 类 的 前 级 。Gensim 这 么 流行 的 另 一 个 原因 是 高 效 。 个 为 速度 高 度 优化 过 的 包 ， 拥 
有 分 布 式 计算 的 选项 ， 并 且 可 以 在 不 将 所 有 数据 放 入 0 i 


可 以 用 以 下 代码 安装 Gensim。 























$ pip install gensim 

Gensim 主要 依赖 于 NumPy 和 SciPy。 如 果 需 要 使 用 Gensim 的 分 布 式 计算 功能 , 你 还 需要 安 
装 Python Remote Objects ( Pyro4 )。 

$ pip install Pyro4 

为 了 展示 Gensim 的 简单 接口 ， 我 们 可 以 看 看 文本 摘要 模块 。 


# Chap01/demo_gensim.py 
from gensim.summarization import summarize 





import sys 


fname = sys.argv[1] 
with open(fname, 'r') as f: 
content = f.read!() 
summary = summarize(content, split=True, word_ count=100) 


for i, sentence in enumerate(summary): 
print ("%$d) %s" %$ (i+1, sentence)) 


demo_gensim.py 脚本 需要 一 个 命令 行 参数 , 即 需 要 进行 摘要 的 文本 文件 的 名 称 。 为 了 测试 
该 脚本 ， 我 从 维基 百科 的 《 魔 戒 》 页 面 中 摘 了 一 段 文本 ， 即 第 一 册 《 魔 戒 首 部 曲 … 护 戒 同盟》 中 
的 情节 。 用 以 下 命令 运行 该 脚本 。 
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$ Python demo gensim.py lord of the rings.txt 
输出 结果 如 下 所 示 。 


1) They nearly encounter the Nazgitl while still in the Shire, but shake off 
pursuit by cutting through the 01d Forest, where they are aided by the 
enigmatic Tom Bombadil, who alone is unaffected by the Ring's corrupting 
influence. 

2) Aragorn leads the hobbits toward the Elven refuge of Rivendell, while 


Frodo gradually succumbs to the wound. 

3) The Council of Elrond reveals much significant history about Sauron and 
the Ring, as well as the news that Sauron has corrupted Gandalf's fellow 
wizard, Saruman. 

4) Frodo volunteers to take on this daunting task, and a "Fellowship of the 
Ring" is formed to aid him: Sam, Merry, Pippin, Aragorn, Gandalf, Gimli the 
Dwarf, Legolas the Elf, and the Man Boromir, son of the Ruling Steward 
Denethor of the realm of Gondor. 


Gensim 中 的 summarize () 函数 实现 了 经 典 的 TextRank 算法。 该 算法 根据 句子 的 重要 程度 排 
序 , 并 选择 最 特殊 的 句子 来 生成 输出 摘要 。 这 种 方法 是 抽取 式 摘 要 技术 ， 即 输出 中 只 包含 从 输入 
中 挑选 出 的 句子 , 不 经 过 任何 文本 变换 、 变 形 等 。 输 出 的 文本 大 小 约 是 原始 文本 的 25%。 也 可 以 
通过 ratio 参数 来 设 定 这 个 比率 ， 或 者 通过 wora_count 指定 固定 数目 的 单词 。 在 以 上 两 种 情 
况 下 ， 输 出 都 将 包含 完整 的 句子 ， 也 就 是 说 ， 句 子 不 会 因为 兼顾 输出 的 大 小 而 被 截断 。 




















1.3.5 社会 网 络 分 析 


网 络 理论 是 图 论 的 一 部 分 , 是 对 表示 离散 对 象 间 的 关系 的 图 的 研究 。 它 在 社会 媒体 中 的 应 用 
称 作 社会 网 络 分 析 ( social network analysis ，SNA ), 主要 研究 社会 结构 ， 如 朋友 关系 或 相识 关系 。 


NetworkX 是 Python 用 于 生成 、 操 作 和 学 习 复 杂 网 络 结构 的 主要 库 之 一 。 它 提供 了 图 的 数据 
结构 ， 以 及 很 多 著名 的 标准 图 算法 。 


可 以 用 以 下 代码 从 CheeseShop 安装 NetworkX。 




















$ pip install networkx 

以 下 示例 展示 了 如 何 用 几 个 节点 创建 一 个 简单 的 图 , 图 中 的 节点 表示 用 户 , 节点 间 的 连 线 表 
示 用 户 间 的 社交 关系 。 

# Chap01l/demo_networkx.py 


import networkx as nx 
from datetime import datetime 








if marme ss 
g = nx.Graph() 
g.add_ node("John", {'name': 'John', 'age': 25} 
g.add_node("Peter", {'name': 'Peter', 'age': 35}) 


g.adqd_ node("Mary", {'name': 'Mary', 'age': 31}) 
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g.add_ node("Lucy", {'name': 'Lucy', 'age': 19}) 

g.add_edge("John", "Mary", {'type': 'friend', 'since': datetime.today()}) 
g.add_edge("John", "Peter", {'type': 'friend', 'since': datetime(1990, 7, 30)} 
g.add _ edge("Mary", "Lucy", {'type': 'friend', 'since': datetime(2010, 8, 10)} 


print (g.nodes()) 
print (g.edges()) 


print(g.has_edge ("Lucy", "Mary")) 

# ['John', 'Peter', 'Mary', 'Lucy'] 

# [('John', 'Peter'), ('John', 'Mary'), ('Mary', 'Lucy')] 
# True 





所 有 的 节点 和 边 都 能 够 以 Python 字典 的 形式 加 入 额外 的 属性 ， 这 些 属性 可 以 用 来 描述 网 络 
的 语义 信息 。 

Graph 类 用 于 表示 无 向 图 ， 即 边 是 没有 方向 的 。 通 过 使 用 has_edge () 函数 来 查看 Lucy 和 
Mary 之 间 是 否 存在 一 条 边 ， 可 以 很 清楚 地 看 到 这 一 点 。 在 上 例 中 ，Lucy 和 Mary 之 间 确 实 存在 
一 条 边 , 但 该 隐 数 也 显示 了 其 方向 是 被 忽略 的 。 节 点 到 其 自身 的 边 也 被 忽略 了 ， 也 就 是 说 ， 只 有 
一 条 边 对 应 两 个 节点 这 种 形式 是 有 效 的 -Graph 类 是 可 以 使 用 自 循环 的 ,但 我 们 的 示例 并 不 需要 。 


NetworkX 还 支持 有 向 图 (DiGraph， 节 点 间 的 方向 很 重要 ) 以 及 节点 间 存 在 多 条 (平行 ) 
边 的 MultiGraph 和 MultiDiGraph。 












































1.3.6 ”数据 可 视 化 


数据 可 视 化 是 探索 数据 的 视觉 表示 的 一 个 交叉 学 科 。 视 觉 表 示 是 一 个 强大 的 工具 , 可 以 帮助 
我 们 理解 复杂 的 数据 ， 以 及 有 效 地 展示 和 交流 数据 分 析 过 程 的 结果 。 通 过 对 数据 进行 可 视 化 ,人 
们 可 以 看 到 数据 不 那么 显而易见 的 一 面 。 如 果 说 一 幅 图 片 包含 千言 万 语 才 能 传达 的 信息 , 那么 良 
好 的 数据 可 视 化 可 以 让 你 借助 一 幅 简单 的 图 理解 复杂 的 概念 。 例 如 , 数据 科学 家 在 进行 探索 性 数 
据 分 析 时 ， 可 用 数据 可 视 化 来 帮助 理解 数据 。 此 外 ,数据 科学 家 也 可 以 使 用 数据 可 视 化 与 非 专家 
进行 交流 ， 并 向 他 们 解释 数据 的 精彩 之 处 。 

Python 提供 了 很 多 数据 可 视 化 工具 , 如 1.3.3 节 中 提 到 过 的 matplotlib 库 。 可 以 用 以 下 命令 安 
装 这 个 库 。 

$ pip install matplotlib 


matplotlib 可 以 生成 各 种 格式 的 出 版 质量 的 图 像 。 这 个 库 背 后 的 思想 是 ， 开 发 者 可 以 通过 几 
行 代码 创建 简单 的 图 像 。matplotlib 图 像 也 可 以 存储 为 不 同 的 文件 格式 ， 如 PNG 或 PDF。 


我 们 在 以 下 简单 示例 中 画 出 了 一 些 二 维 数据 。 


# Chap01l/demo_ matplotlib.py 
import matplotlib.pyplot as plt 
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import numpy as np 


if marme == ' main 
# 用 红色 的 点 画 出 Y = x^2 
0 
人 
BLLOt (EO) 
DLItaaXis( EO .6 “07 GO 
plt.savefig('demo_plot.png') 


以 上 代码 的 输出 如 图 1-7 所 示 。 
































图 1-7 ”matplotlib 创建 的 图 像 


用 别名 plt 指 代 pyploy 是 一 个 普遍 的 命名 惯例 。plot () 函数 接受 两 个 类 似 序列 的 参数 ， 
其 中 分 别 包 含 x 和 y 坐标 。 在 本 例 中 , 这 两 个 坐标 是 用 NumPy 数组 创建 的 , 也 可 以 用 Python 列 
表 创 建 。axis () 函数 定义 了 轴 的 显示 范围 。 因 为 我 们 画 的 是 1~5 的 平方 ,所 以 x 轴 的 取 值 范围 应 
该 是 0~6, 而 y 轴 的 取 值 范围 应 该 是 0~30。 最 后 ，savefig () 函数 创建 了 一 个 图 像 文件 ,如 图 1-7 
所 示 。 我 们 可 以 由 文件 后 绥 猜 到 该 图 像 的 格式 。 


matplotlib 可 以 创建 很 棒 的 图 片 ， 但 有 时 我 们 需要 允许 用 户 通过 放大 和 缩小 图 像 等 方式 的 互 
动 来 探索 数据 。 这 种 互动 是 其 他 编程 语言 擅长 的 领域 。 例 如 ，JavaScript ( 特别 是 很 流行 的 D3.js 
库 ) 允许 创建 基于 Web 的 交互 式 可 视 化 。 虽 然 这 并 不 是 本 书 的 核心 主题 ， 但 是 我 想 指 出 Python 
在 该 领域 并 不 落后 ， 这 得 益 于 将 Python 对 象 翻 译 为 Vega 语法 ( 基于 JSON 的 声明 式 格式 ) 的 工 
具 。 因 此 ， 我 们 也 可 以 用 Python 创建 交互 式 可 视 化 。 


Python 和 JavaScript 可 以 良好 合作 的 一 个 特别 有 趣 的 场景 是 地 理 数据 的 可 视 化 。 大 多 数 的 社 
会 媒体 平台 是 通过 移动 设备 访问 的 , 这 就 提供 了 追踪 用 户 地 理 位 置 的 机 会 , 这 些 地 理 位 置 数据 可 
以 用 来 进行 数据 分 析 。 一 种 用 于 编码 并 交换 地 理 数 据 结构 的 常见 数据 格式 是 GeoJSON。 正 如 名 
字 所 指 ， 这 种 格式 是 基于 JSON 的 语法 。 
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绘制 交互 式 地 图 的 一 个 流行 JavaScript 库 是 Leaflet。 可 以 用 Folium 来 连接 JavaScript 和 Python。 
它 是 一 个 Python 库 ， 使 用 GeoJSON 格式 的 数据 在 Leafletjs 地 图 上 对 地 理 数据 进行 可 视 化 。 


值得 一 提 的 还 有 第 三 方 服务 ( 如 Plotly ), 它们 也 支持 自动 生成 数据 可 视 化 , 减轻 了 创建 互动 
组 件 的 工作 量 。 具 体 来 说 ,Plotly 还 用 其 Python 客户 端 为 创建 自 定 义 数据 可 视 化 提供 了 支持 。Plotly 
的 图 像 是 在 线 存放 的 并 且 与 用 户 账户 相关 联 (公开 存放 免费 ， 私 有 存放 收费 )。 


1.4 ”Python 中 的 数据 处 理 


前 面 介绍 了 用 于 数据 分 析 的 最 重要 的 Python 包 ， 现 在 我 们 回头 来 学 习 一 些 导 入 和 操作 不 同 
格式 数据 的 Python 工具 。 

大 多 数 社会 媒体 API 都 提供 JSON 或 XML 格式 的 数据 。Python 可 以 使 用 标准 库 来 处 理 这 些 
格式 。 


简便 起 见 , 我 们 先 介绍 JSON 这 种 格式 ,因为 它 可 以 很 好 地 映射 到 Python 字典 , 而 且 易 于 阅 
读 和 理解 。JSON 库 的 接口 也 非常 简单 ,你 可 以 将 JSON 数据 导入 Python 字典 ， 或 者 将 Python 字 
典 转 储 成 JSON。 


我 们 来 查看 以 下 代码 。 


# Chap01/demo_json.py 
import json 









































Lf name EE 风 Ta 寺 重 
USer jsSon = {TUSer 本 ili= Marcow) 
user_data = json.loads (user_json) 


print (user_datal[l'name']) 
# 输出 : Marco 


user_data['likes'] = ['Python', 'Data Mining'] 
user_json = json.dumps (user_data, indent=4) 
print (user_ json) 


输出 : 
{ 
ne TO 
"name": "Marco", 
"Jikes": [ 
"Python", 
"Data Mining" 
] 
} 


json.1loads () 和 json.dumps() 函数 分 别 将 JSON 字符 串 转 换 为 Python 字 典 以 及 从 Python 
字段 转换 回 JSON 字符 串 。 另 外 两 个 函数 是 json.1oad() 和 json.qdump(), 它们 处 理 的 是 文件 
指针 ， 可 以 帮助 你 从 文件 导出 JSON 数据 ， 或 将 JSON 数据 存储 到 文件 中 。 
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json.dumps () 孙 数 还 接收 第 二 个 参数 indent 来 指定 缩 进 的 字符 数量 ， 这 对 于 漂亮 的 打印 
效果 非常 有 用 。 


当 手 动 分 析 更 复杂 的 JSON 文件 时 ， 使 用 一 个 外 部 JSON 阅读 器 很 可 能 更 方便 ， 这 种 阅读 器 
可 以 在 浏览 器 中 良好 地 打印 ， 并 允许 用 户 任意 地 折 笃 或 展开 JSON 数据 。 


有 些 免 费 的 JSON 阅读 工具 是 基于 Web 的 服务 ， 如 JSON Viewer。 用 户 只 需 粘 贴 一 段 JSON 
或 者 JSON 数据 的 URL， 该 阅读 器 就 会 导 和 人 JSON 数据 ， 并 以 友好 的 格式 进行 展示 。 


1-8 展示 了 JSON Viewer 如 何 显示 前 面 示例 中 的 JSON 文档 。 

















CGC | jsonviewer.stack.hu 








Viewer | Text 
日 { JsoN 
user_ id : "1" 
@ name : "Marco" 
日 []ikes 
量 0 : "Python” 
量 1:"Data Mining" 











图 1-8 在 JSON Viewer 中 漂亮 地 打印 JSON 数据 的 示例 


如 图 1-8 所 示 ，1ikes 字段 是 一 个 列表 ,可 以 折 炙 起 来 以 隐藏 其 元 素 并 简化 可 视 化 。 上 例 中 
的 数据 很 少 ， 但 是 当 文 档 中 包含 多 个 能 套 层 时 ， 该 功能 会 非常 实用 。 





























当 使 用 基于 Web 的 服务 或 者 浏览 器 扩展 时 ， 导 入 很 大 的 JSON 文档 进行 打印 会 
阻塞 你 的 浏览 器 并 使 系统 变 慢 。 


1.5 创建 复杂 的 数据 管道 


当 创建 的 数据 处 理工 具 大 到 不 仅仅 是 简单 的 脚本 时 , 将 数据 预 处 理 任务 分 割 成 较 小 的 单元 是 
非常 实用 的 ， 我 们 可 以 将 其 映射 到 数据 管道 的 所 有 步 又 和 依赖 中 。 


数据 管道 是 指 一 系列 的 数据 处 理 操作 ,其 中 包括 清洗 、 填 充 和 操作 原始 数据 , 将 原始 数据 转 
换 为 分 析 引 擎 可 以 处 理 的 格式 。 所 有 的 数据 分 析 项 目 都 需要 由 一 系列 步骤 组 成 的 数据 管道 。 


在 原型 阶段 ， 比 较 常 见 的 做 法 是 将 这 些 步 又 分 割 成 不 同 的 脚本 ， 然 后 分 别 运行 ， 如 下 所 示 。 










































































$ Python download some data.py 
$ python clean some data.py 
$ python augment some data.py 


以 上 每 个 脚本 运行 完 后 和 以 下 脚本 产生 的 输出 是 一 致 的 ， 因 此 不 同 的 步骤 之 间 存 在 依赖 关 
系 。 以 下 脚本 集合 了 所 有 数据 处 理 步 又， 运行 如 下 。 
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$ Python do_ everything.py 
以 上 这 个 脚本 包含 的 代码 可 能 和 以 下 代码 类 似 。 


工 下 name Ss ma 
download_some_data() 
clean_some_data() 
augment_some_data() 


以 上 代码 中 的 每 个 函数 都 包含 了 原来 单个 脚本 的 逻辑 。 这 种 方法 的 问题 是 , 数据 管道 中 可 能 
会 发 生 错误 ， 因 此 我 们 还 需要 加 入 很 多 样板 代码 ， 用 try 和 except 来 控制 可 能 发 生 的 异常 。 
男 外 ， 将 这 种 代码 参数 化 可 能 会 显得 有 些 笨拙 。 


总 之 ， 当 从 原型 发 展 到 更 稳定 的 状态 时 , 需要 考虑 使 用 一 个 数据 管理 髓 ( 也 称 作 工作 流 管理 
器 )。 Python 提供 的 Luigi 就 是 这 样 一 个 工具 , 它 是 Spotify 引入 的 一 个 开源 项 目 。 使 用 Luigi 这 样 
的 数据 管理 需 的 优点 如 下 所 示 。 


口 任务 模板 : 每 个 数据 任务 被 定义 为 一 个 类 ， 其 中 包含 了 定义 任务 如 何 执行 的 一 些 方法 、 
任务 的 依赖 及 输出 

口 依赖 图 : 一 个 可 视 化 工具 ， 可 以 帮助 数据 工程 师 可 视 化 并 理解 数据 依赖 关系 

口 故障 恢复 : 如 果 数 据 管道 在 执行 任务 的 途中 发 生 异 常 ， 那 么 可 以 从 最 后 的 一 致 状态 重新 启动 
口 与 命令 行 界面 以 及 系统 作业 调度 器 ( 如 cron job ) 整合 

口 个 性 化 异常 分 析 报 表 


我 们 不 会 深入 介绍 Luigi 的 所 有 功能 , 这 超出 了 本 书 的 范围 。 但 是 希望 你 可 以 了 解 这 个 工具 ， 
并 用 它 生成 更 优雅 、 可 重用 、 易 于 维护 和 可 扩展 的 数据 管道 。 









































1.6 ”小结 


本 章 介绍 了 “如 何 使 用 Python 进行 社会 媒体 的 数据 挖 气 ” 这 个 话题 的 很 多 方面 。 我 们 介绍 
了 其 中 的 一 些 挑 战 和 机 遇 , 它们 使 得 这 个 话题 研究 起 来 很 有 趣 , 并 且 对 于 想 从 社会 媒体 数据 中 获 
得 有 意义 信息 的 企业 来 说 很 有 价值 。 

我 们 还 探讨 了 社会 媒体 挖掘 的 整个 流程 ， 其 中 包括 如 何 用 OAuth 进行 鉴 权 。 此 外 还 详细 介 
绍 了 数据 挖掘 者 的 数据 工具 箱 中 必 备 的 Python 工具 。 根 据 要 分 析 的 社会 媒体 平台 ， 以 及 关注 的 
信息 类 型 ，Python 提供 了 各 种 稳健 且 成 熟 的 包 来 实现 机 器 学 习 、 自 然 语言 处 理 和 社会 网 络 分 析 。 

在 1.3.1 节 中 , 我 们 建议 你 通过 virtualenv 创建 Python 开发 环境 , 因为 这 样 有 助 于 保持 全 
局 开发 环境 的 整洁 。 


下 一 章 将 介绍 Twitter ， 重 点 探讨 如 何 用 Twitter API 获取 Twitter 数据 ， 以 及 如 何 对 Twitter 数 
据 分 段 和 切 分 以 获得 有 趣 的 信息 。 
































Twitter 数据 挖掘 一 一 标签 、 
话题 和 时 间 序 列 














本 章 介 绍 Twitter 数据 的 挖掘 ， 包 含 如 下 主题 : 


口 用 Tweepy 与 Twitter API 进行 交互 
口 Twitter 数据 一 一 推 文 的 结构 

口 分 词 和 频率 分 析 

口 推 文中 的 话题 标签 和 用 户 提 及 

口 时 间 序 列 分 析 











2.1 入 门 


Twitter 是 最 著名 的 在 线 社交 网 络 之 一 , 近 些 年 广 受 欢迎 。 它 提供 的 服务 称 为 微 博 客 ， 即 一 种 
内 容 非 常 短 的 博客 变 体 ， 每 条 推 文 和 短 消息 一 样 最 多 包含 140 个 字符 。 与 其 他 社会 媒体 平台 ( 如 
Facebook ) 不 同 的 是 ，Twitter 网 络 不 是 双向 的 ， 也 就 是 说 用 户 间 的 关系 不 是 相互 的 : 你 可 以 关注 
那些 并 未 关注 你 的 用 户 ， 也 可 以 不 关注 那些 关注 你 的 用 户 。 

传统 媒体 也 正在 通过 社会 媒体 获取 更 广泛 的 受众 ， 并 且 大 多 数 名 人 都 有 一 个 与 粉丝 联系 的 
Twitter 账户 。 用 户 可 以 讨论 实时 发 后 的 事情 ， 包 括 庆 典 、 电 视 节 目 、 体 育 赛事 、 政 治 选举 等 。 

Twitter 还 提供 了 话题 标签 ， 以 便 将 对 话 进 行 分 组 , 使 得 用 户 可 以 关注 特定 的 话题 。 话题 标 签 
是 以 # 符 号 为 前 级 的 关键 词 ， 如 #halloween ( 用 于 分 享 万 圣 节 服装 的 图 片 ) 或 者 #4WateronMars 
( 用 于 标记 NASA 宣布 其 在 火星 上 找到 了 水 的 迹象 )。 

因为 用 途 广 泛 ， 所 以 Twitter 对 于 数据 挖掘 者 来 说 就 是 一 个 潜在 的 “ 金 矿 ”， 接 下 来 我 们 将 开 
始 挖 矿 之 旅 ! 
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2.2 Twitter API 


Twitter 提供 了 一 系列 的 API， 以 便 我 们 获取 Twitter 数据 ， 包 括 读 取 推 文 、 获 取 用 户 资料 ， 








以 及 代表 用 户 发 布 内 容 。 
为 了 创建 一 个 获取 Twitter 数据 的 项 目 ， 需 要 先 完 成 以 下 两 个 前 期 准备 步骤 : 


口 注册 我 们 的 应 用 
口 选择 一 个 Twitter API 客 户 端 

















注册 步骤 需要 花 几 分 钟 完成 。 假 设 我 们 已 经 登录 了 Twitter 账户 ， 只 需要 用 浏览 器 访问 应 用 


管理 页 面 并 创建 一 个 新 的 应 用 。 


已 











注册 应 用 后 ， 在 Keys and Access Tokens 选项 卡 下 找到 鉴 权 应 用 所 需 的 信息 。Consumer 
Key 和 Consumer Secret ( 也 分 别称 作 API Key 和 API Secret ) 是 你 的 应 用 的 一 个 设置 。 Access 
Token 和 Access Token Secret 是 你 的 用 户 账户 的 一 个 设置 。 你 的 应 用 可 以 通过 访问 令 牌 请 求 访 
问 几 个 用 户 。 这 些 设置 的 访问 等 级 定义 了 应 用 代表 用 户 与 Twitter 交互 时 可 以 做 哪些 事情 ， 只 读 









































用 户 交 互 。 


2.2.1 接口 访问 频率 限制 




















是 一 个 非常 保守 的 选项 , 在 这 种 模式 下 ,应 用 不 能 发 布 任何 内 容 , 也 不 可 以 通过 直接 消息 与 其 他 


Twitter API 限制 了 对 应 用 的 访问 。 这 些 限制 是 基于 每 位 用 户 的 ， 更 准确 地 说 ,是 基于 每 个 访 
问 令 牌 的 。 这 就 意味 着 ， 当 一 个 应 用 使 用 应 用 专用 的 鉴 权 时 ,接口 访问 频率 限制 是 针对 整个 应 用 




















的 ; 而 对 于 基于 每 位 用 户 的 鉴 权 方法 ， 应 用 可 以 提高 对 API 的 全 局 访问 次 数 。 





熟悉 接口 访问 频率 限制 的 概念 非常 重要 ， 详 见 官 方 文 档 ( https://dev.twitter.com/rest/public/ 
rate-limiting )。 还 需要 考虑 不 同 的 API 会 有 不 同 的 接口 访问 频率 限制 (https://dev.twitter.com/rest/ 





public/rate-limits )。 


达到 API 访 问 次 数 的 上 限 后 ，Twitter 会 返回 一 个 错误 消息 ， 而 不 是 我 们 请 求 的 数据 。 如 细 











继 


续 进 行 更 多 的 API 访问 ， 再 次 获得 正常 接 人 的 时 间 会 变 得 更 长 ， 因 为 Twitter 会 将 我 们 标记 为 潜 








在 的 恶意 用 户 。 当 应 用 需要 多 次 访问 API 时 ， 需 要 找到 一 种 方法 来 避免 上 述 情况 。 在 Python 





hs 


标准 库 中 的 time 模块 允许 我 们 在 执行 代码 的 过 程 中 用 time . sleep () 函数 设置 任意 的 等 待 。 例 




















如 ， 以 下 是 一 段 伪 代码 。 
# 假设 first_request() 和 second_request () 是 已 经 定义 好 的 
# 它们 将 执行 API 请 求 


import time 


first_request () 
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time.sleep (10) 
secongd_request () 


在 这 个 示例 中 ， 第 一 个 请 求 执行 10 秒 ( sleep () 参数 指 定 的 ) 后 才 会 执行 第 二 个 请 求 。 


2.2.2 ”搜索 与 流 

















Twitter 提供 的 并 不 是 单个 API。 实 际 上 ，Twitter 提供 了 多 种 方式 来 获取 Twitter 数据 。 简 便 
起 见 ， 这 些 API 可 以 分 为 两 类 : REST API 和 流 API ( 见 图 2-1 )。 


与 Twitter API 交 互 


REST API 
本 一 
已 发 布 的 推 文 





流 API 





一 > 
即将 发 布 的 推 文 


图 2-1 搜索 与 流 的 时 间 维 度 


如 图 2-1 所 示 ， 这 两 种 API 的 差别 十 分 简单 : 所 有 的 REST API 只 人 允许 你 回溯 时 间 。 当 通过 
一 个 REST API 与 Twitter 交互 时 , 我 们 可 以 搜索 现 有 的 推 文 , 即 已 经 发 布 的 、 可 以 搜索 到 的 推 文 。 


通常 情况 下 , 这 些 API 会 限制 我 们 可 以 检索 的 推 文 数量 ， 





而 




















来 限制 ， 而 是 以 时 间 区 间 的 方式 。 实 际 上 ,通常 可 以 回 湖 








文 不 能 被 检索 或 者 索引 上 有 延迟 。 














j 约 





上 且 并 不 是 以 前 面 介绍 的 接口 访问 频率 








一 周 的 内 容 ， 而 更 早 的 内 容 是 无 法 检 
索 的 。 需 要 注意 的 另 一 点 是 ，REST API 并 不 能 确保 提供 Twitter 上 发 布 的 所 有 推 文 ， 因 为 有 些 推 





男 一 方面 , 流 API 关 注 的 是 未 来 。 打开 一 个 连接 后 , 我 们 可 以 在 接 下 来 的 时 间 内 保持 其 为 打 
开 状 态 。 通 过 保持 HTTP 连接 状态 打开 ， 我 们 可 以 检索 符合 筛选 条 件 的 所 有 推 文 。 

由 于 与 Twitter 平台 的 交互 是 受 限 制 的 ， 流 API 通常 被 认为 是 下 载 大 量 推 文 的 更 佳 方式 。 采 
用 这 种 方法 的 缺点 是 会 消耗 大 量 时 间 ， 因 为 要 等 推 文 发 布 出 来 才能 进行 收集 。 

总 的 来 说 ， 当 想 要 搜索 特定 用 户 发 布 的 推 文 或 者 获取 自己 的 时 间 轴 时 , REST API 非常 实用 。 
当 希 望 过 滤 特 定 关 键 词 并 下 载 与 该 关键 词 ( 如 实时 事件 ) 相关 的 大 量 推 文 时 ， 流 API 非常 有 用 。 
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2.3 从 Twitter 收集 数据 


为 了 与 Twitter API 交互 ,我们 需要 一 个 可 以 对 API 进行 不 同调 用 的 Python 客户 端 。 可 以 从 
官方 文档 ( https://dev.twitter.com/overview/api/twitter-libraries ) 中 看 到 好 几 种 方法 。 这 些 方法 都 不 
是 Twitter 官方 维护 的 ， 而 是 由 开源 社区 支持 的 。 虽 然 很 多 选项 的 性 能 几乎 是 相当 的 ， 但 这 里 我 
们 选择 Tweepy， 因 为 它 提 供 了 许多 功能 ， 而 且 目 前 仍然 有 积极 的 维护 。 


可 以 通过 pip 安装 这 个 库 。 





























$ pip install tweepy==3.3.0 


Python 3 的 兼容 性 

我 们 指定 安装 3.3 版 本 的 Tweepy， 因 为 最 新 版 本 的 Tweepy 与 Python 3 存在 兼容 
问题 , 无 法 在 Python 3.4 的 环境 中 运行 示例 代码 。 该 问题 在 撰写 本 书 时 还 未 解决 ， 
但 是 应 该 会 很 快 解决 。 


与 Twitter API 交互 的 第 一 个 部 分 就 是 前 面 介绍 过 的 设置 鉴 权 。 注册 应 用 后 , 你 应 该 拥有 消费 
者 密 钥 、 消 费 者 密码 、 访 问 令 牌 和 访问 令 牌 密码 。 


为 了 分 离 应 用 逻辑 和 配置 , 我 们 将 用 户 凭证 存储 到 环境 变量 中 。 为 什么 不 直接 将 这 些 值 硬 编 
人 码 为 Python 代码 中 的 变量 呢 ? 十 二 要 素 应 用 (The Twelve-Factor App ) 的 宣言 中 总 结 了 几 个 原因 。 
用 环境 存储 配置 信息 是 与 语言 和 操作 系统 无 关 的 。 在 不 同 的 部 署 中 改变 配置 (例如 ,用 个 人 用 户 
凭证 进行 局 部 测试 和 用 公司 账户 进行 生产 ) 并 不 需要 改变 代码 库 本 身 。 更 重要 的 是 , 环境 变量 不 
会 意外 地 带 入 源 代码 管理 系统 ， 从 而 避免 了 对 每 个 人 可 见 。 


在 Unix 环境 (如 Linux 或 macOS ) 中 ， 如果 你 的 shell 是 Bash, 那么 可 以 通过 以 下 方式 设置 
环境 变量 。 













































































$ export TWITTER CONSUMER KEY="your-consumer-key" 


在 Windows 环境 中 ， 可 以 通过 以 下 方式 在 命令 行 中 设置 环境 变量 。 

















$ set TWITTER CONSUMER KEY="your-consumer-key" 
该 命令 要 重复 执行 4 次 ， 因 为 有 4 个 变量 。 


一 旦 创建 好 环境 , 我 们 将 用 于 创建 Twitter 客户 端的 Tweepy 调用 封装 到 两 个 函数 中 : 一 个 函 
数 用 于 读 取 环境 变量 和 执行 鉴 权 ， 另 一 个 函数 用 于 创建 与 Twitter 交互 的 API 对 象 。 


# Chap02-03/twitter_client.py 
import os 

import sys 

from tweepy import API 

from tweepy import OAuthHandler 
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def get_twitter_auth(): 
"" "设置 Twitter 鉴 权 信息 


返回 值 : tweepy .OAuthHandler 对 象 

GLY 
consumer_key = os.environ['TWITTER_ CONSUMER_KEY'] 
Consumer_secret = os.environ['TWITTER_CONSUMER_SECRET'] 
access_token = os.environ['TWITTER_ACCESS_TOKEN'] 
access_secret = os.environ['TWITTER_ACCESS_SECRET ' ] 

except KeyError: 
sys.stderr.write("TWITTER_* environment variables not set\n") 
sys.exit (1) 

auth = OAuthHandler (consumer_key, consumer_secret) 

auth.set_access_tokenl(access_ token, access_secret) 

return auth 





def get_twitter_client (): 
""" 配置 Twitter API 客户 闹 


返回 值 : tweepy .API 对 象 


auth = get_twitter_auth() 
Client = API (auth) 
return client 


* 





get_twitter_auth() 函数 负责 鉴 权 。try/except 块 用 于 读 取 环境 变量 。os 模块 包含 了 


一 个 名 为 os .environ 的 字典 ， 可 以 通过 一 个 密 钥 访 问 ， 就 像 常 规 字 典 一 样 。 如 果 缺 失 
TWITTER_x* 环 境 变 量 中 的 某 一 个 ， 试 图 访问 该 密 钥 会 抛 出 KeyError 异常 ， 我 们 将 捕捉 这 个 异 
常 以 显示 错误 消息 并 退出 应 用 。 





























文子 数 被 get_twitter_client () 调 用 , 它 用 于 创建 tweepy .API 的 一 个 实例 , 后 者 可 用 
于 多 种 Twitter 交互 类 型 。 < 以 将 该 逻辑 分 解 为 两 个 单独 的 函数 ， 是 因为 鉴 权 代码 也 可 以 在 流 
API 中 重用 ， 接 下 来 将 介绍 这 一 点 。 


2.3.1 从 时 间 线 获取 推 文 
客户 端 鉴 权 完成 后 ， 就 可 以 用 客户 端 下 载 推 文 了 。 
首先 思考 一 个 简单 场景 : 如何 获取 你 自己 主 时 间 线 上 的 前 10 条 推 文 ? 


from tweepy import Cursor 
from twitter_client import get_twitter_client 























人 name., = he 二 信 
client = get_ twitter_client() 





for status in Cursor(client.home timeline).items(10): 
# 处 理 单个 状态 
print (status.text) 
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作为 一 名 Twitter 用 户 ， 你 的 主 时 间 线 就 是 登录 Twitter 后 看 到 的 屏幕 。 它 包含 了 你 关注 的 一 
系列 账号 的 推 文 ， 最 新 、 最 有 趣 的 推 文 在 最 上 面 。 


以 上 代码 片段 展示 了 如 何 使 用 tweepy .cursor 对 主 时 间 线 上 的 前 10 项 进行 遍历 。 首 先 ， 
需要 导入 cursor 和 之 前 定义 的 get_twitter_client 子 数 。 在 主 代码 块 中 ,我 们 将 用 这 个 也 
数 来 创建 客户 端 ， 该 客户 端 提供 了 Twitter API 的 访问 接口 。 需 要 特别 说 明 的 是 ， 我 们 需要 用 
home_timeline 属性 来 访问 自己 的 主 时 间 线 ， 它 将 作为 参数 传人 cursor。 

tweepy .Cursor 是 一 个 可 迭代 的 对 象 ， 也 就 是 说 ， 它 提供 了 一 个 对 不 同 对 象 执行 和 欠 代 和 翻 
页 的 易 用 接口 。 前 面 的 示例 展示 了 一 个 允许 开发 者 对 对 象 本 身 进行 循环 的 简单 抽象 ,而且 开发 者 
无 须 担 心 Twitter API 的 请 求 是 如 何 产生 的 。 



























































可 迭代 对 象 
Python 中 的 可 和 迭代 对 象 一 次 可 以 返回 它 的 一 个 成 员 。Python 内 置 的 数据 类 型 (如 
&9 列表 和 字典 ) 都 是 可 迭代 对 象 ， 实 现 了 iter () 或 ”getitem () 方 法 的 
其 他 类 的 对 象 也 都 是 可 迭代 的 。 
迭代 中 使 用 的 status 变量 表示 tweepy . Status 的 一 个 实例 ， 它 是 Tweepy 用 于 封装 状态 
( 即 推 文 ) 的 一 个 模型 。 在 前 面 的 代码 片段 中 , 我 们 只 使 用 了 其 文本 , 但 是 该 对 象 具有 很 多 属性 。 
2.3.2 节 中 介绍 了 这 些 属性 。 


与 其 将 文本 打印 到 屏幕 上 ， 我 们 更 愿意 将 从 API 检 索 到 的 推 文 存储 起 来 ， 以 便 稍 后 分 析 。 


我 们 将 重 构 前 面 的 代码 片段 ， 以 便 从 自己 的 主 时 间 线 获取 推 文 ， 然 后 将 JSON 信息 保存 到 一 
个 文件 中 。 


# Chap02-03/twitter_get_ home _ timeline.py 
import json 

from tweepy import Cursor 

from twitter _ client import get_ twitter client 


























TL name EE. mad 
client = get_twitter_ client () 





with open('home timeline.jsonl', 'w') as f: 
for page in Cursor(client.home timeline, count=200, include rts=True) .pages (4): 
for status in page: 
# 处 理 单个 状态 
f.write(json.dumps (status._json)+"\n") 


执行 上 述 代 码 后 会 生成 一 个 名 为 home_timeline.jsonl 的 文件 。 


2.3 从 Twitter 收集 数据 37 





JSON Lines 格式 

前 面 的 示例 中 生成 的 文件 带 有 .jsonl 后 级 ， 而 不 是 .json 后 级。 实际 上 ， 该 文件 是 

JSON Lines 格式 的 。 在 这 种 格式 中 ,文件 的 每 一 行 都 是 一 个 有 效 的 JSON 文档 。 

如 果 试 图 用 json.1loads() 导入 这 个 文件 的 全 部 内 容 ， 会 抛 出 ValueError 异 
6 常 ， 因 为 整个 内 容 并 不 是 一 个 有 效 的 JSON 文档 。 如 果 要 使 用 处 理 有 效 JSON 文 

档 的 函数 ， 需 要 一 次 处 理 一 行 。 

JSON Lines 格式 特别 适合 大 规模 处 理 : 很 多 大 数据 框架 都 允许 开发 者 将 输入 文 

件 分 割 成 多 个 片段 ， 从 而 通过 不 同 的 工作 进程 进行 并 行 处 理 。 


我 们 在 以 上 代码 中 迭代 了 4 个 页 面 ， 其 中 包含 200 条 推 文 ， 而 且 每 条 推 文 都 声明 在 光标 的 
count 参数 中 。 这样 设置 的 原因 是 Twitter 有 限制 , 最 多 只 能 从 主 时 间 线 中 检索 最 新 的 800 条 推 文 。 


如 果 从 特定 用 户 的 时 间 线 中 检索 推 文 ， 即 使 用 user_timeline 方法 ， 而 不 是 home_ 
timeline， 那 么 推 文 的 限制 放宽 到 了 3200 条。 


以 下 脚本 可 以 获取 特定 用 户 的 时 间 线 。 






































# Chap02-03/twitter_get user timeline.py 
import sys 

import json 

from tweepy import Cursor 

from twitter_ client import get_ twitter_client 


def usage(): 
print ("Usage:") 
print ("python {} <username>".format (sys.argv[0])) 


站 生 marme == ' main 
if len(sys.argv) != 2: 
usage() 
SYS .exit (1) 
user = sys.argv[1] 
client = get_ twitter_ client() 





fname = "user_ timeline_{}.jsonl".format (user) 


with open(fname, 'w') as f: 
for page in Cursor(client.user timeline, screen name=user, 
count=200) .pages (16) : 
for status in page: 
f.write(json.dumps (status._json)+"\n") 


为 了 执行 以 上 代码 , 我 们 需要 提供 一 个 命令 行 参数 来 指定 用 户 名 。 例 如， 如 果 想 要 检索 我 的 
整个 时 间 线 ( 目前 还 没有 达到 3200 条 推 文 的 限制 )， 可 以 执行 以 下 命令 。 








$ python twitter get user timeline.py marcobonzanini 


由 于 我 的 时 间 线 上 内 容 较 少 ， 可 以 从 Packt 出 版 社 的 账号 ePacktPub 获取 更 多 推 文 。 
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$ python twitter get user timeline.py PacktPub 


与 前 面 用 主 时 间 线 看 到 的 一 样 ， 该 脚本 会 生成 一 个 每 行 带 有 一 个 JSON 文档 的 .jsonl 文件 。 
如 果 达 到 3200 条 的 上 限 ， 文 件 的 大 小 约 为 10MB。 


获取 用 户 时 间 线 的 代码 和 检索 主 时 间 线 的 代码 在 概念 上 非常 相似 。 唯 


一 个 命令 行 参 数 来 指定 我 们 感 兴趣 的 用 户 。 


到 目前 为 止 ， 我 们 通过 Tweepy 界面 使 用 过 的 单条 推 文 的 唯一 属性 是 _json， 它 用 于 存储 原 














的 区 别 在 于 前 者 需要 


























始 的 JSON 响应 。 接 下 来 将 详细 介绍 推 文 的 结构 ， 然 后 介绍 从 Twitter 获取 数据 的 其 他 方式 。 


2.3.2 ” 推 文 的 结构 





推 文 是 一 个 复杂 的 对 象 。 表 2-1 汇总 了 推 文 的 所 有 属 怕 








容 全 部 包含 在 可 以 导入 Python 字典 的 _json 属性 中 。 





E 及 其 含义 。 一 条 推 文 的 API 响应 的 内 


















































表 2-1 推 文 的 属性 及 其 含义 
属性 名 称 描述 
_json JSON 状态 响应 的 字典 
author tweepy .models .User 实例 ， 表 示 推 文 作者 
contripbutors 如 果 启 用 ， 该 特征 是 一 个 贡献 者 列表 
coordinates GeoJSON 格式 的 坐标 字典 


created at 
entities 
favorite_ count 
favorited 

geo 

Rs 

id_str 


in_reply_to_screen name 





gein reply_to_ status_id 





in_reply_to_status_iqd_ str 





in_reply_to user_id 


in_reply_to_user_iqd str 





is_quote_status 
lang 

place 
possibly_sensitive 


retweet_count 


datetime.datetime 实例 ， 表 示 推 文 的 生成 时 间 








折 





作文 正在 回复 的 状态 的 用 



































] 户 名 











作文 中 URL 、 话 题 标签 和 提 及 信息 的 字典 
: 文 被 标记 为 喜欢 的 次 数 

表示 鉴 权 用 户 是 否 喜 欢 该 条 推 文 
坐标 (不 建议 使 用 ， 可 以 用 coorainates 替代 ) 
作文 的 唯一 DD， 是 一 个 较 大 的 整数 
作文 的 唯一 ID ， 是 一 个 字符 串 
作文 正在 回复 的 状态 的 | 
作文 正在 回复 的 状态 的 ID ， 是 一 个 较 大 的 整数 
作文 正在 回复 的 状态 的 
作文 正在 回复 的 状态 的 用 


ID， 是 一 个 字符 串 





二 
D， 十 














个 较 大 的 整数 





日 
D， 十 














局 





十 中 





个 字符 串 


示 推 文 是 否 为 引用 ( 即 包含 男 一 条 推 文 ) 

















带 有 推 文 的 语言 代码 的 
tweepy .models.Place 实例 ， 表 示 推 文中 附加 的 地 点 





这 符 串 














表 











状态 被 转发 的 次 数 


示 推 文 是 否 包 含 可 能 带 有 敏感 内 容 的 URL 
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( 续 ) 
属性 名 称 描述 
retweeted 表示 状态 是 否 为 转发 推 文 
source 描述 用 于 发 布 状态 的 工具 的 字符 串 
text 带 有 状态 内 容 的 字符 串 
truncated 表示 状态 是 否 被 截 短 ( 例如， 转发 超过 140 个 字符 ) [ 
user tweepy .models.User 实例 , 表示 推 文 的 作者 ( 不 建议 使 用 , 可 以 用 author 替代 ) 











带 有 ID (如 用 户 ID 或 推 文 ID ) 的 属性 会 有 一 个 对 应 的 字符 串 版 本 。 这 是 很 有 必要 的 ， 因 为 
有 些 编程 语言 ( 如 JavaScript ) 不 支持 超过 53 比特 的 数字 ， 而 Twitter 使 用 的 是 64 比特 的 数字 。 
为 了 避免 这 个 问题 ，Twitter 建议 使 用 *_str 属性 。 

我 们 可 以 看 到 ， 并 不 是 所 有 的 属性 都 可 以 转换 为 Python 的 内 置 类 型 ， 如 字符 串 或 布尔 值 。 
实际 上 ， 有 些 复杂 对 象 ( 如 用 户 资料 ) 是 完全 包含 在 API 响应 中 的 ， 而 Tweepy 会 将 这 些 对 象 转 
换 为 合适 的 模型 。 

以 下 示例 展示 了 一 条 由 Packt 出 版 社 发 布 的 示例 推 文 。 该 推 文 是 原始 的 JSON 格式 ， 可 通过 
API 或 者 _json 属性 获得 。( 为 了 简洁 起 见 ， 省 略 了 一 些 字 段 。) 


首先 ， 期 望 格 式 的 生成 时 间 如 下 所 示 。 


€ 









































"createqd at": "Fri Oct 30 05:26:05 +0000 2015", 


entities 属性 是 一 个 字典 ， 其 中 包含 带 有 标签 的 实体 的 不 同 列表 。 例 如 ，hashtags 元 素 
展示 了 给 定 推 文中 出 现 了 #Python 话题 标签 。 同 样 ， 我 们 还 有 照片 、URL 以 及 用 户 提 及 信息 。 








"entities": { 
"ashtags™: 于 
{ 
"indices": [ 
2 
79 





属 

"text": "Pythony" 
} 

地 


"media": [ 


"display_url": "pic.twitter.com/muZlMreJNk", 
"id": 659964467430735872， 

"id_str": "659964467430735872"， 

"indices": [ 
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"url": "https://t.co/muZlMreJNk" 
} 
让 
"gymbols™:. |], 
"urs | 
{ 
"jndices": [ 
48, 
了 
J] 
"url": "https://t.co/NaBNan3iVt" 
} 
] 
"user_ mentions": [ 
{ 
vo- B0589255, 
Tid str "0589255.., 
"jndices": [ 
3.3;; 
47 
J 
"name": "Open Source Way", 
"screen name": "opensourceway" 
} 





以 下 属性 已 经 在 表 2-1 中 详细 解释 过 了 。 我 们 注意 到 这 条 扒 





将 前 面 与 实体 相关 的 信息 与 存储 在 text 属 怕 














"favorite_ count": 4, 
"favorited": false, 

"geo": null, 

"id": 659964467539779584， 
"iqd_str": "659964467539779584"， 
"lang": "en", 

"retweet_count": 1, 
"retweeted": false， 


E 文 缺失 了 地 理 信息 。 我 们 也 可 以 


E 中 的 实际 推 文 进行 比较 。 


"text": "Top 3 open source Python IDES by Qopensourceway 














https://t.co/NaBNan3iVt #Python https://t.co/muZlMreJNk", 


user 属性 是 一 个 字典 ， 表 示 发 送 推 文 的 用 户 ， 在 这 个 示例 中 是 aPacktPub。 正 如 前 面 提 到 
的 ， 这 是 一 个 复杂 对 象 ， 其 中 含有 推 文 中 能 入 的 所 有 用 户 相关 信息 。 

















eBooks, video tutorials，and 


articles for IT developers, administrators, and users." 


"user": { 
"created _ at": "Mon Dec 01 13:16:47 +0000 2008", 
"description": "Providing books, 
"entities": { 
"description": { 
的 | 
3 


war" 
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Tr i 
{ 
"display_url": "PacktPub.com", 
"expanded_url": "http://www.PacktPub.com", 
"indices": [ 
0, 
22 
| 
Wri "httos//t Eo/vVEPCI9OU235" 
} 


] 
} 

} 

"favourites_count": 548, 

"followers_count": 10090， 

"following": true, 

"friends_count": 3578, 

"id L17778401.; 

"i StEvm: TLLOL". 

"Jang": "en", 

"location": "Birmingham, UK", 
"name": "Packt Publishing", 
"screen name": "PacktPub", 
"statuses_count": 10561, 
"time_ zone": "London", 
eurly httpr// tCo/vEPCg9OuU230n; 
"Ute oftset: “0 
"verified": false 

} 

} 


这 个 示例 表明 分 析 推 文 时 需要 考虑 以 下 两 个 方面 : 


口 实体 本 身 是 带 有 标签 的 

口 用 户 资料 是 完全 骨 入 的 

第 一 点 意味 着 实体 分 析 简 化 了 , 即 我 们 不 需要 显 式 地 搜索 主题 标签 、 用 户 提 及 、 舱 入 的 URL、 
多 媒体 等 实体 , 因为 Twitter API 已 经 提供 了 这 些 信息 , 并 且 一 并 提供 了 这 些 信息 在 文本 中 的 偏 置 
值 (该 属性 称 作 inaices )。 


第 二 点 意味 着 我 们 不 需要 在 其 他 地 方 存储 用 户 资料 信息 ， 并 通过 外 键 连接 /合并 数据 。 实 际 
上 ， 每 条 推 文中 的 用 户 信息 是 元 余 重 复 的 。 


处 理 非 标准 化 数据 

庶 入 见 余数 据 的 方法 与 非 标准 化 的 概念 相关 。 标 准 化 是 关系 型 数据 库 设计 中 的 最 
2 佳 实践 ， 而 非 标准 化 用 于 大 规模 处 理 以 及 属于 广泛 的 NoSQL 家 族 的 数据 库 。 这 

种 方法 背后 的 基本 原理 是 ,， 宛 余 存 储 用 户 信息 只 需要 微不足道 的 花费 ,而 避免 连 

接 /合并 操作 带 来 的 收益 (性 能 提升 ) 是 持久 的 。 
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2.3.3 ”使 用 流 API 


流 API 是 获取 大 量 数据 而 不 超过 接口 访问 频率 限制 的 常用 方法 之 一 。 我 们 已 经 探讨 过 这 种 
API 与 其 他 REST API ( 特别 是 Search API ) 的 差别 , 也 解释 过 可 能 需要 重新 思考 我 们 的 应 用 如 何 
与 用 户 交 互 。 


在 深入 学 习 流 API 前 ， 有 必要 查看 流 API 的 文档 ( https://dev.twitter.com/streaming/overview ) 
来 理解 其 特性 。 


本 节 ,我 们 将 通过 扩展 Tweepy 提 供 的 默认 StreamListener 类 实现 一 个 自 定义 的 流 监 听 器 。 





















































# Chap02-03/twitter_streaming.py 

import sys 

import string 

import time 

from tweepy import Stream 

from tweepy.streaming import StreamListener 
from twitter _ client import get_twitter_ auth 


class CustomListener (StreamListener): 
""" 自 定义 StreamListener 类 获取 Twitter 流 数据 """ 


def __ init__(self, fname): 
safe_fname = format_filename (fname) 


9 


self.outfile = "stream %s.jsonl" %$ safe_fname 


def on data(lself, data): 
GR 
with open(self.outfile, 'a') as f: 
f.writel(data) 
return True 
except BaseException as e: 
sys.stderr.write("Error on data: {}\n".format(e)) 
time.sleep(5) 
return True 


def on_ error(self, status): 
Lf Status. Ss 420 
sys.stderr.write("Rate limit exceeded\n".format (status)) 
return False 
else: 
sys.stderr.write("Error {}\n".format (status)) 
return True 


def format_filename (fname) : 


"" "将 fname 转换 成 文件 名 允许 的 字符 串 


返回 值 : 字符 囊 


return ''.join(convert_validl(one char) for one char in fname) 
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def convert_validl(one char): 
""" 如果 字符 为 无 效 值 则 转换 为 下 划 线 ' 
返回 值 : 字符 事 


Validq_chars = "-_.%s%s" % (string.ascii letters, string.digits) 
if one_ char in valiqd_ chars: 
return one_char 





else: 
return '_" 
站 marme ,fi 
query = sys.argv[1:] # 命令 行 界面 参数 列表 
query_fname = ' '.join(query) # 字符 事 


auth = get_twitter_auth() 
twitter_stream = Stream(auth，CustomListener (query_fname)) 
twitter_stream.filter(track=query, async=True) 


流 逻 辑 的 核心 在 CustomListener 类 中 实现 ， 该 类 继承 了 streamListener， 并 重 写 了 方 
法 on_aata() 和 on_error()。 当 使 用 API 获取 数 据 的 过 程 中 磁 到 错误 时 ， 就 会 触发 这 两 个 处 
理 表 。 


这 两 个 函数 的 返回 类 型 都 是 布尔 值 : True 是 继续 ，False 是 停止 运行 。 因 此 ， 只 在 发 生 严 
重 错误 时 才 使 用 False, 以 便 应 用 可 以 继续 下 载 数据 。 这 样 可 以 避免 微小 的 错误 导致 应 用 终止 运 
行 ， 比 如 应 用 端的 网 络 短暂 暂停 ， 或 者 Twitter 的 一 个 HTTP 503 错误 , 后 者 意味 着 服务 暂时 不 可 
用 (但 会 很 快 恢 复 )。 


on_error () 方 法 会 处 理 来 自 Twitter 的 显 式 错误 。 可 以 在 文档 ( https://dev.twitter.cony/overview/ 
api/response-codes ) 中 查看 Twitter API 的 状态 代码 的 完整 列表 。on_error () 方 法 的 实现 只 在 发 
生 420 错误 时 终止 运行 , 即 达到 Twitter API 接口 访问 频率 限制 时 终止 应 用 。 超过 接口 访问 频率 限 
制 越 多 ,能够 再 次 使 用 该 服务 之 前 需要 等 待 的 时 间 就 越久 。 因 此 ,最 好 停止 下 载 并 追查 产生 问题 
的 原因 。 其 他 错误 会 在 stdaerz 接口 打印 。 这 种 打印 方式 比 只 使 用 print () 更 好 ， 因 为 我 们 可 
以 重 定向 错误 并 将 其 输出 到 特定 文件 ( 如 果 需 要 的 话 ), 一 种 更 好 的 方法 是 用 1ogging 模块 创建 
一 个 恰当 的 日 志 处 理 机 制 ， 但 这 超出 了 本 章 的 范围 ， 不 在 此 深入 介绍 。 


当成 功 获取 数据 时 ， 调 用 on_aata() 方 法 。 该 函数 将 数据 存储 在 一 个 jsonl 文件 中 。 这 个 文 
件 的 每 一 行 都 将 包含 一 条 JSON 格式 的 推 文 。 一 旦 写 入 数据， 我 们 将 返回 True 来 继续 运行 。 如 
果 在 这 个 过 程 中 发 生 任何 异常 , 我 们 将 捕获 异常 , 在 stderr 打印 一 条 消息 , 并 让 应 用 休眠 5 秒 ， 
然后 再 次 返回 True 来 继续 运行 程序 。 异 常 后 的 短暂 休眠 仅仅 是 为 了 避免 偶尔 的 网 络 中 断 引起 应 
用 阻塞 。 


customListener 类 用 一 个 辅助 函数 来 清洗 查询 , 并 将 其 作为 文件 名 。 format_filename () 
函数 会 循环 给 定 字符 串 的 每 个 字符 ， 并 用 convert_valid() 函数 将 非法 字符 转换 为 下 划 线 。 合 
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法 的 字符 有 : 横 杠 、 下 划 线 和 点 (-、_ 和 . )， 以 及 ASCII 字母 和 数字 。 


当 运 行 twitter_streaming .py 脚本 时 ,必须 在 命令 行 输入 参数 。 监 听 器 会 将 以 空白 分 隔 
的 这 些 参数 作为 下 载 推 文 的 关键 词 。 


为 了 提供 一 个 示例 ， 我 运行 脚本 获取 了 2015 年 橄榄 球 世界 杯 中 新 西 兰 和 澳大利亚 之 间 诀 赛 
的 相关 推 文 。 在 Twitter 上 关注 这 场 球赛 的 粉丝 大 多 使 用 了 #RWc2015 话题 标签 ( 赛事 全 程 使 用 的 
话题 标签 ) 和 #RWCFinal 话题 标签 ( 用 于 关注 赛事 的 决赛 日 )。 我 将 这 两 个 话题 标签 以 及 rugby 
一 词 作为 流 监 听 器 的 搜索 词 。 


$ Python twitter streaming.py \#RWC2015 \#RWCFinal rugby 


# 前 面 的 反 斜 杜 用 于 转 义 ， 因 为 shell 用 # 表 示 注 释 的 开头 。 转 义 该 字符 可 以 确保 该 字符 串 正 
确 地 传递 给 脚本 。 


赛事 设 定 在 格林 威 治标 准时 间 ( Greenwich Mean Time，GMT ) 的 2015 年 10 月 31 日 下 午 4 
点 。 在 下 午 3~6 点 运行 以 上 脚本 产生 了 近 800MB 的 数据 ， 共 计 200 000 多 条 推 文 。 在 Twitter 上 
的 相关 讨论 在 赛事 结束 后 还 持续 了 一 段 时 间 , 但 我 们 在 这 3 小 时 内 搜集 的 数据 已 经 足够 做 一 些 有 
趣 的 分 析 了 。 



































2.4 ”分析 推广 一 一 实体 分 析 


本 节 将 分 析 推 文中 的 实体 。 我 们 将 对 前 面 搜集 到 的 数据 做 一 些 频 率 分 析 。 数 据 的 切片 和 分 段 
操作 允许 用 户 生成 一 些 有 趣 的 统计 , 这 些 统计 可 以 帮助 用 户 获 得 一 些 有 关 数 据 的 有 用 信息 并 回答 


一 些 问题 。 


分 析 话题 标签 这 样 的 实体 非常 有 趣 , 因为 这 些 注 解 有 助 于 用 户 以 一 种 明确 的 方式 标记 推 文 的 











接 下 来 分 析 Packt 出 版 社 的 推 文 。 因 为 Packt 出 版 社 支 持 并 推动 开源 软件 ， 所 以 我 们 和 希望 找 
到 Packt 出 版 社 经 常 提 及 哪些 技术 。 


以 下 脚本 从 一 个 用 户 时 间 线 抽取 话题 标签 ， 并 生成 了 一 个 最 常用 的 话题 标签 列表 。 





# Chap02-03/twitter_hashtag_frequency .py 
import sys 

from collections import Counter 

import json 


def get_hashtags (tweet): 
entities = tweet.get('entities', {}) 
hashtags = entities.get('hashtags', []) 
return [tag['text'].lower() for tag in hashtags] 
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i name., Ser 
fname = sys.argv[1] 





with open(fname, 'r') as f: 

hashtags = Counter() 

FO Te dr 
tweet = json.loads (line) 
hashtags_in tweet = get_hashtags (tweet) 
hashtags.update (hashtags_in tweet) 

for tag, count in hashtags.most_common (20): 
print ("{}: {}".format (tag, count)) 


可 以 用 以 下 命令 运行 上 述 代码 。 





$ Python twitter hashtag frequency.py user timeline PacktPub.jsonl 


这 里 的 user_timeline PacktPub.jsonl 是 我 们 在 前 面 搜集 到 的 JSON Lines 文件 。 


该 脚本 从 命令 行 接收 一 个 .jsonl 文件 名 作为 参数 ， 并 且 每 次 读 入 一 行内 容 。 每 一 行 包含 的 是 
一 个 JSON 文档 ， 读 入 后 会 将 这 个 文档 赋 给 tweet 变量 ， 并 用 set_hashtags () 辅助 函数 抽取 
话题 标签 列表 。 这 些 实体 的 类 型 存储 在 collections .countez 声明 过 的 hashtags 变量 中 。 
collections.Counter 是 一 个 对 话题 标签 对 象 (这 里 是 字符 串 ) 计数 的 特殊 字典 。 该 计数 器 将 
字符 串 作 为 字典 的 键 ， 将 频率 作为 值 。 


作为 dict 的 子 类 ，counter 对 象 本 身 也 是 一 个 无 序 集合 。most_common () 方 法 负责 按照 
频率 大 小 〈 频率 最 大 的 排 第 一 个 ) 对 键 进行 排序 ， 并 返回 一 个 (key，value) 二 元 组 列表 。 


get_hashtags () 辅助 函数 负责 从 推 文中 检索 出 话题 标签 列表 。 载 入 字典 数据 结构 中 的 整 条 
推 文 是 该 函数 的 唯一 参数 。 如 果 该 推 文中 存在 实体 , 那么 字典 中 就 会 包含 sntities 键 。 因为 这 
是 一 个 可 选项 ,所 以 我 们 不 能 直接 获取 tweet ['entities']， 否则 会 出 现 KeyError 异常 。 
此 , 我 们 用 get () 函数 来 获取 实体 , 不 存在 实体 时 就 返回 一 个 空 字典 。 第 二 步 是 从 实体 中 获取 话 
题 标 签 。 由 于 entities 也 是 个 字典 ，hashtags 键 也 是 个 可 选项 ， 我 们 仍然 使 用 get () 函数 ， 
但 如 果 不 存 在 话题 标签 , 就 指定 返回 一 个 空 列表 。 最 后 , 我 们 用 一 个 列表 推导 式 来 迭代 话题 标签 ， 
以 抽取 出 其 中 的 文本 。 用 lower () 函数 归 一 化 话题 标签 ， 以 便 将 所 有 文本 转换 成 小 写 。 这 样 一 
来 ，#Python 和 #PYTHON 都 将 被 看 作 #python。 


执行 以 上 代码 分 析 PacktPub 的 推 文 会 生成 以 下 输出 。 


packt5dollar: 217 
python: 138 
skillup: 132 
freelearning: 107 
gamedev: 99 
webdev: 96 
angularjs: 83 
bigdata: 73 
javascript: 69 
unity: 65 
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hadoop: 46 
raspberrypi: 43 

js: 37 

pythonweek: 36 
levelup: 35 

r: 29 

html5: 28 

arduino: 27 

node: 27 
nationalcodingweek: 26 


可 以 看 到 , 这 些 都 是 关于 PacktPub 的 事件 或 促销 ( 如 #packt5dollar ), 但 大 多 数 话题 标签 
都 是 关于 特定 技术 的 ， 其 中 Python 和 JavaScript 是 推 文中 提 及 最 多 的 技术 。 


前 面 的 脚本 给 出 了 PacktPub 最 常用 的 话题 标签 概览 ， 但 我 们 希望 可 以 更 深入 一 些 。 实 际 上 ， 
我 们 能 生成 一 些 更 具 描述 性 的 统计 来 帮助 理解 Packt 出 版 社 是 如 何 使 用 话题 标签 的 。 


# Chap02-03/twitter_hashtag_stats.py 
import sys 

from collections import defaultdict 
import json 























def get_hashtags (tweet): 
entities = tweet.get('entities', {}) 
hashtags = entities.get('hashtags', []) 
return [tag['text'] .lower() for tag in hashtags] 


def usade() : 
print ("Usage:") 
print ("python {} <filename.jsonl>".format (sys.argv[0])) 


生生 name Se madn 
if len(sys.argv) != 2: 
usage() 
sys.exit (1) 
fname = sys.argv[1] 
with open(fname, 'r') as f: 
hashtag_count = defaultdict (int) 
for line in f: 
tweet = json.loads (line) 
hashtags_in tweet = get_hashtags (tweet) 
n_of hashtags = len(hashtags_in tweet) 
hashtag_count[n_of_hashtags] += 1 





tweets_with hashtags = sum([count for n of tags, count in 
hashtag_count.items() if n of tags > 0]) 
tweets_no_hashtags = hashtag_count[0] 

tweets_total = tweets_ no hashtags + tweets with hashtags 


tweets_with hashtags_ percent = "%.2f" % (tweets with hashtags 
/ tweets_total * 100) 
tweets_no_hashtags_percent = "%.2f" %$ (tweets_no_ hashtags / 


tweets_total * 100) 














print ("{} tweets without hashtags 
({}%)".format (tweets_no_hashtags, 
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tweets_no_hashtags_percent)) 

print ("{} tweets with at least one hashtag 
({}%)".format (tweets_with hashtags, 
tweets_with hashtags_percent)) 


for tag_count, tweet_ count in hashtag_count .items () : 
if tag_count > 0: 








percent_total = "%$.2f" % (tweet_count / tweets_ total * 100) 
percent_ elite = "%.2f" % (tweet_count / tweets with hashtags * 100) 
print ("{} tweets with {} hashtags ({}% total, {}% 





elite)".format (tweet_count, tag_count, 
percent_total, percent_elite)) 


可 以 用 以 下 命令 执行 以 上 脚本 。 
$ python twitter hashtag stats.py user timeline PacktPub.jsonl 
基于 我 们 搜集 的 数据 ， 以 上 命令 会 产生 以 下 输出 结果 。 


1373 tweets without hashtags (42.91%) 

1827 tweets with at least one hashtag (57.09%) 

1029 tweets with 1 hashtags (32.16% total, 56.32% elite) 
585 tweets with 2 hashtags (18.28% total, 32.02% elite) 
181 tweets with 3 hashtags (5.66% total, 9.91% elite) 

29 tweets with 4 hashtags (0.91% total, 1.59% elite) 

2 tweets with 5 hashtags (0.06% total, 0.11% elite) 

1 tweets with 7 hashtags (0.03% total, 0.05% elite) 


可 以 看 到 ，PacktPub 的 大 多 数 推 文 都 至 少 有 一 个 话题 标签 ， 这 也 验证 了 这 种 实体 在 人 们 用 
Twitter 交流 中 的 重要 性 。 








FT 


男 外 ,话题 标签 个 数 的 分 布 说 明 每 条 推 文 使 用 的 话题 标题 的 个 数 不 会 很 多 。 只 有 约 1% 的 推 
文 会 使 用 4 个 及 以 上 的 话题 标签 。 在 以 上 统计 中 可 以 看 到 两 种 百分数 : 第 一 个 是 针对 所 有 推 文 统 
计 的 ， 第 二 个 是 对 至 少 有 一 条 引用 的 推 文 〈 称 作 精 英 集 合 ) 的 统计 。 


同样 ， 可 以 用 以 下 代码 观察 用 户 的 提 及 情况 。 


# Chap02-03/twitter_mention_freduency .DY 
import sys 

from collections import Counter 

import json 


























def get_ mentions (tweet): 





entities = tweet.get('entities', {}) 

hashtags = entities.get('user mentions', []) 

return [tag['screen name'] for tag in hashtags] 
下 name., = ad 

fname = sys.argv[1] 


with open(fname, 'r') as f: 
users = Counter () 
far Tinie Ti. £3 
tweet = json.loads (line) 
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mentions_in tweet = get_mentions (tweet) 
users.update (mentions_in tweet) 

for user, count in users.most_common (20): 
SELnt Te Ormeat(USer, COUNt)) 


可 以 用 以 下 命令 运行 上 述 脚 本 。 





$ python twitter mention frequency.py user timeline PacktPub.jsonl 
wa a 
输出 结果 如 下 所 示 。 


PacktPub: 145 

De Mote: 15 
antoniogarcia78: 11 
dptech23: 10 
platinumshore: 10 
packtauthors: 9 
neo4j: 9 
Raspberry_Pi: 9 
LucasUnplugged: 9 
ccaraus: 8 
gregturn: 8 
ayayalar: 7 
rvprasadTweet: 7 
triqui: 7 

rukku: 7 
gileadslostson: 7 
gringer t: 7 
kript: 7 

Zaherg: 6 

otisg: 6 
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前 一 节 中 分 析 了 推 文 的 实体 字段 。 这 提供 了 有 关 推 文 的 一 些 有 用 信息 , 因为 这 些 实体 是 由 推 
文 的 作者 明确 标记 的 。 本 节 主 要 关注 非 结 构 化 数据 ， 即 推 文 的 原始 文本 。 我 们 将 介绍 文本 分 析 的 














几 个 方面 ， 如 文本 预 处 理 和 文本 归 一 化 ,还 将 对 推 文 做 一 些 数值 分 析 。 在 深入 学 习 之 前 ， 先 介 


一 些 术语 。 

















绍 


分 词 是 预 处 理 阶段 最 重要 的 概念 之 一 。 给 定 一 个 文本 流 ( 如 一 条 推 文 状态 )， 分词 是 将 这 个 
文本 分 解 为 各 个 独立 单元 ( 称 为 词 项 ) 的 过 程 。 在 最 简单 的 形式 中 ,该 单元 是 单词 。 但 我 们 也 可 























以 将 文本 分 解 为 更 复杂 的 单元 ， 如 词组 、 符 号 等 。 








分 词 听 起 来 是 一 个 琐碎 的 任务 ,但 自然 语言 处 理 社区 对 其 进行 了 广泛 研究 。 第 1 章 对 该 领域 


做 了 简短 介绍 ， 并 提 到 了 Twitter 如 何 改变 了 分 词 的 规则 ， 因 为 Twitter 的 内 容 包 含 表情 符号 、 





示 了 对 Twitter 内 容 进 行 分 词 的 工具 TweetTokenizer 类 。 本 章 也 会 使 用 该 工具 。 


话 
题 标签 、 用 户 提 及 和 URL 等 内 容 ， 这 与 标准 英语 非常 不 同 。 因 此 ， 在 使 用 NLTK 库 时 ， 我 们 展 
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需要 考虑 的 另 一 个 预 处 理 步骤 是 停 用 词 移 除 。 停 用 词 是 指 单独 存在 时 没有 任何 含义 的 单词 。 
这 类 单词 包括 冠 词 、 介 词 、 副 词 ， 等 等 。 频 率 分 析 将 展示 出 ， 这 些 单词 在 所 有 数据 集中 都 是 最 常 
见 的 。 虽 然 可 以 通过 分 析 数 据 ( 如 选择 在 95% 以 上 的 文档 中 都 出 现 过 的 词 ) 自动 编译 一 个 停 用 词 
列表 ， 但 更 保险 的 方式 通常 是 只 选用 常用 的 英语 停 用 词 。NLIK 库 提 供 了 一 个 可 以 通过 
nltk.corpus.stopwords 模块 获得 的 常用 英语 停 用 词 列 表 。 


停 用 词 移 除 也 可 以 扩展 到 符号 (如 标点 符号 ) 或 专业 领域 的 单词 。 在 我 们 的 Twitter 内 容 中 ， 
常见 的 停 用 词 是 RT ( retweet 的 缩写 ) 和 via (通常 用 于 提 到 分 享 内 容 的 作者 )。 


最 后 , 另 一 个 重要 的 预 处 理 步 又 是 归 一 化 。 这 是 一 个 涵盖 性 术语 , 包含 多 种 处 理 。 总 的 来 说 ， 
当 需 要 将 不 同 的 项 聚合 到 同一 单元 时 ， 可 以 使 用 归 一 化 。 大 小 写 归 一 化 是 归 一 化 的 特例 ， 意 味 着 
所 有 的 项 都 是 小 写 ， 这 样 可 以 将 原来 具有 不 同 大 小 写 形式 的 相同 字符 串 内 容 匹配 到 一 起 〈 如 
'python' == 'Python' .lower() )。 执 行 大 小 写 归 一 化 的 优点 是 ， 同 一 项 的 频率 可 以 自动 聚 
合 到 一 起 ， 而 不 是 以 同一 项 的 不 同形 式 分 散 开 。 


可 以 用 以 下 脚本 生成 我 们 项 的 第 一 次 频率 分 析 。 




















































































































# Chap02-03/twitter_term frequency.py 
import sys 

import string 

import json 

from collections import Counter 

from nltk.tokenize import TweetTokenizer 
from nltk.corpus import stopwords 


def process (text, tokenizer=TweetTokenizer(), stopwords=[]): 
"" "处 理 推 文 文本 : 
- 转 小 写 
- 分 词 
- 移 除 停 用 词 
- 移 除 数字 


返回 值 : 字符 串 数 组 


text = text.lower() 

tokens = tokenizer.tokenize (text) 

# 如 果 需 要 还 原 缩 略 形式 ， 请 去 掉 下 面 代码 的 注释 

# tokens = normalize_contractions (tokens) 

return [tok for tok in tokens if tok not in stopwords and not tok.isdigit()] 


def normalize_ contractions (tokens): 
"" "英语 缩 略语 还 原 示 侦 
返回 值 : 生成 器 


token map = { 
mi "ms "i am", 
"you're": "YOU are", 
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nit avs wi 起 LT 
"We're": "we are", 
"we'll": "we will", 


} 
for tok in tokens: 
if tok in token map.keys(): 
for item in token map[tok] .split(): 
yield item 
else: 
yield tok 


竺 芋 name 三 ES 
tweet_tokenizer = TweetTokenizer() 
punct = list(string.punctuation) 
stopword_list = stopwords.words('english') + punct + ['rt', 'via'] 





fname = sys.argv[1] 
tf = Counter () 
with open(fname, 'r') as 工 : 
for line in f: 
tweet = json.loads (line) 
tokens = process (text=tweet.get('text', ''), 
tokenizer=tweet_tokenizer, 
stopwords=stopword_list) 
tf.update (tokens) 
for tag, count in tf.most_ common(30): 
BrInt( uF {format (tag; COunty) 


预 处 理 逻 辑 的 核心 在 process () 孔 数 中 实现 。 该 函数 将 一 个 字符 串 作 为 输入 ， 并 返回 一 个 
字符 串 列 表 作 为 输出 。 这 里 只 用 几 行 代码 就 实现 了 前 面 提 到 的 所 有 预 处 理 步 又 , 包括 大 小 写 归 一 
化 、 分 词 、 停 用 词 移 除 。 


该 函数 还 有 两 个 可 选 参数 : 一 个 分 词 器 和 一 个 停 用 词 列 表 。 前 者 是 一 个 实现 tokenize() 方 
法 的 对 象 ,后 者 允许 自 定义 停 用 词 移 除 的 过 程 。 当 使 用 停 用 词 移 除 时 ， 该 函数 也 可 以 通过 对 字符 
串 使 用 isqigit () 函数 去 除数 字 (如 '5' 或 '42' )。 

以 上 脚本 需要 从 命令 行 输入 .jsonl 文 件 名 作为 参数 , 它 初始 化 TweetTokenizer 来 进行 分 词 ， 
然后 定义 一 个 停 用 词 列 表 。 这 个 列表 是 由 NLTK 提供 的 常见 英语 停 用 词 以 及 string.punctuation 
中 定义 的 标点 符号 组 成 的 。 为 了 完善 停 用 词 列表 , 我 们 还 包括 了 ' rt'、'via' 和 '...' 词 项 。( 最 
后 的 ' ...' 是 一 个 单字 符 的 Unicode 符号 ， 表 示 水 平 省 略 号 。) 


可 以 用 以 下 命令 运行 该 脚本 。 















































$ python twitter term _ frequency.py filename .jsonl 
> 2 
输出 结果 如 下 所 示 。 


free: 477 
get: 450 
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today: 437 

ebook: 342 
http://t.co/wrmxoton95: 295 
-: 265 

save: 259 

ebooks: 236 

us: 222 
http://t.co/ocxvjqbbiw: 214 
#packt5dollar: 211 
new: 208 

data: 199 
@Qpacktpub: 194 

': 192 

hi: 179 

titles: 177 

we'l1ll: 160 

find: 160 

guides: 154 
videos: 154 

sorry: 150 

books: 149 

thanks: 148 

know: 143 

book: 141 

we're: 140 
#python: 137 

grab: 136 
#skillup: 133 


正如 我 们 所 见 ,输出 结果 中 包含 单词 .话题 标签 .用 户 提 及 、URL 和 用 string.punctuation 
未 获取 到 的 Unicode 符 号。 对 于 这 些 额 外 的 符号 , 我 们 可 以 扩展 停 用 词 列表 来 获取 这 些 标 点 符号 。 
TweetTokenizer 可 以 帮助 我 们 获取 话题 标签 和 用 户 提 及 ， 因 为 这 些 项 词 都 是 有 效 的 。 但 是 其 
中 we'zre 和 we'11 并 不 是 我 们 期 望 的 词 项 ， 因 为 它们 是 两 个 独立 词 项 的 缩 略 形式 ， 而 不 是 一 个 
独立 的 词 项 。 如 果 将 缩 略 形式 展开 (如 we are 和 we will )， 得 到 的 就 是 一 个 停 用 词 序列 ， 
为 这 些 缩 略 形式 通常 是 代词 和 和 常见 动词 。 英 文 缩 略 形式 的 完整 列表 可 以 参见 维基 百科 ( Wikipedia: 


List of English contractions )。 
处 理 这 些 英语 缩 略 形式 的 一 种 方法 是 将 其 归 一 化 为 扩展 形式 。 例 如 , 以 下 函数 接收 一 个 词 项 


列表 作为 输入 ， 并 返回 一 个 归 一 化 后 的 词 项 列表 (更 准确 地 说 是 一 个 生成 器 ， 因 为 我 们 使 用 了 
yield 关键 字 )。 

































































def normalize_contractions (tokens): 
token map = { 


i 1 en = 111 
"you're": "YOU are", 
人 
"Weve MWe adres 


"we'll": "we will", 
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for tok in tokens: 
if tok in token map.keys(): 
for item in token map[tok] .split(): 
yield item 
else: 
yield tok 


以 下 示例 展示 了 如 何在 交互 式 的 解释 器 中 运行 上 述 程序 。 











>>> tokens = tokens = ["we're", "trying", "something"] 

>>> list (normalize contractions(tokens)) 

['we', 'are', 'trying', 'something'] 

这 种 方法 的 主要 问题 是 ， 要 手动 指定 需要 处 理 的 缩 略 形式 。 虽 然 这些 缩 略 形式 的 数量 有 限 ， 
但 将 一 切 都 转化 成 字典 将 是 一 项 繁琐 的 工作 。 更 重要 的 是 , 还 需要 做 一 些 消除 歧义 的 工作 , 例如 ， 
我 们 前 面 碰 到 的 we'11 这 种 缩 略 形式 可 以 映射 为 we will 或 we shal1， 当 然 ， 这 个 列表 可 能 
会 更 长 。 














男 一 个 方法 是 将 这 些 词 项 作为 停 用 词 , 因为 在 归 一 化 后 , 组 成 这 些 缩 略 词 的 成 分 基本 上 都 是 
停 用 词 。 





最 佳 的 实践 方式 可 能 取决 于 你 的 应 用 , 因此 关键 的 问题 是 , process () 函数 做 完 预 处 理 后 会 
发 生 什 么 。 对 于 现 阶 段 来 说 ， 也 可 以 在 预 处 理 后 不 做 任何 改变 ， 即 不 处 理 这 些 缩 略 词 。 


yield 和 生成 器 
在 上 述 示例 中 ，normalize_contractions () 函数 使 用 了 _ yield 关键 字 ， 而 
不 是 return 关键 字 。yield 关键 字 用 于 产生 一 个 生成 器 ， 它 是 一 个 只 能 够 迭 
代 一 次 的 迭代 器 , 因为 它 不 会 在 内 存 中 存储 任何 项 , 而 是 在 运行 过 程 中 生成 这 些 
&D 项 。 这 种 处 理 方式 的 优点 之 一 就 是 减少 了 内 存 消 耗 ， 因 此 ,我们 建议 对 大 对 象 的 
迭代 采用 这 种 方法 。 该 关键 字 还 允许 在 同一 个 函数 调用 中 生成 多 个 项 , 调用 关键 
字 return 后 会 结束 运算 (例如 , normalize_contractions () 中 的 for 循环 
只 会 针对 第 一 个 词 项 运行 )。 


总 的 来 说 ， 本 节 从 一 个 独特 的 角度 分 析 了 项 和 实体 的 频率 。 


我 们 在 twitter_hashtag_frequency.py 和 twitter_term frequency .py 中 给 出 了 
源 代码 ， 可 以 修改 这 些 脚 本 ， 将 打印 最 高 频 的 项 改 为 画 出 分 布 图 像 。 








# Chap02-03/twitter_ tetrm_frecuency_graph.py 
[count for tag, count in tf.most_common(30)] 
range(1, len(ly)+1) 


Bl barty, YY 

plt.title("Term Frequencies") 
plt.ylabel ("Frequency") 
plt.savefig('term distribution.png') 
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上 述 代码 段 展 示 了 如 何 画 出 twitter_term_fregquency .py 中 各 项 的 频率 分 布 ， 同样 也 很 
容易 将 其 用 于 话题 标签 的 频率 分 布 。 对 @PacktPub 的 推 文 运行 上 述 脚 本 后 ， 可 以 得 到 一 个 
term_distribution.png 文 件 ， 如 图 2-2 所 示 。 






































图 2-2 @PacktPub 近期 推 文中 各 项 的 频率 分 布 
2-2 并 没有 显示 出 每 项 的 名 称 ， 因 为 以 上 分 析 主 要 关注 的 是 频率 分 布 。 正 如 我 们 在 图 中 看 
到 的 ， 左 边 一 些 项 的 频率 很 高 ， 最 高 频 的 项 至 少 是 第 10 位 后 各 项 频率 的 2 倍 。 当 向 图 的 右 方 移 
动 时 ， 曲 线 变 得 不 那么 陡峭 ， 这 意味 着 右边 的 项 有 着 相似 的 频率 。 
稍 做 修改 ， 如 果 用 most_common (1000)【〔 即 最 高 频 的 1000 个 项 ) 运行 同样 的 代码 ， 可 以 
更 清晰 地 看 到 这 种 现象 ， 如 图 2-3 所 示 。 
































500 


400 


100 








0 200 400 600 800 1000 1200 


和 














图 2-3 epPacktpPub 的 推 文中 最 高 频 的 1000 个 项 的 频率 分 布 
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我 们 在 图 2-3 中 看 到 的 曲线 近似 体现 了 客 法 则 。 在 统计 学 中 ,和 窜 法 则 是 两 个 量 之 间 的 一 种 也 
数 关系 , 这 里 指 的 是 项 的 频率 及 其 在 频率 排名 中 的 位 置 。 这 种 类 型 的 分 布 总 是 呈现 一 个 长 尾 , 意 
思 是 一 小 部 分 的 项 主导 了 整体 分 布 ,而 整个 分 布 中 还 有 很 多 低频 项 。 这 种 现象 的 另 一 个 名 称 是 二 
八 定 律 或 帕 累 托 法 则 ， 指 的 是 约 80% 的 实际 效果 是 由 20% 的 原因 产生 的 。( 在 以 上 示例 中 ，20% 
的 项 决定 了 80% 的 频率 。) 


几 十 年 前 ， 美 国语 言 学 家 George Zipf 推 广 了 如 今 所谓 的 Zipf 定律 。 这 条 经 验 定律 表明 ， 给 
定 一 个 文档 集合 , 任何 单词 的 频率 与 其 在 频率 表 中 的 排名 成 反比 。 换 句 话说， 最 高 频率 单词 的 出 
现 次 数 将 是 第 二 高 频率 单词 的 2 倍 ， 是 第 三 高 频率 单词 的 3 倍 ， 如 此 类 推 。 实 际 上 ,这 条 定律 描 
述 了 一 个 趋势 ， 而 不 是 精确 的 频率 。 有 趣 的 是 ，Zipf 定律 适用 于 很 多 自然 语言 以 及 社会 科学 中 与 
语言 相关 的 很 多 排序 研究 。 








































































































2.6 ”分析 推广 一 一 时 间 序 列 分 析 


上 一 节 分 析 了 推 文 的 内 容 。 本 节 将 介绍 Twitter 数据 分 析 的 另 一 个 有 趣 的 方面 一 一 推广 随时 
间 的 分 布 。 


通常 来 说 ， 时 间 序 列 是 数据 点 的 一 个 序列 ， 该 序列 包含 给 定时 间 段 内 的 连续 观察 值 。 由 于 
Twitter 提供 了 一 个 包含 推 文 的 精确 时 间 戳 的 created_at 字段 ， 我 们 可 以 在 一 个 临时 的 存储 桶 
中 重 排 这 些 推 文 ， 以 观察 用 户 对 实时 事件 的 反应 。 我们 希望 观察 一 群 用户 ( 而 不 是 一 个 用 户 ) 是 
如 何 发 推 文 的 ， 因 此 ， 通 过 流 API 收集 的 数据 是 最 适合 做 这 种 分 析 的 。 


本 节 的 分 析 使 用 了 2015 年 橄榄 球 世界 杯 决赛 的 数据 集 。 这 个 示例 很 好 地 展示 了 用 户 是 如 何 
对 实时 事件 〈 如 体育 赛事 、 音 乐 会、 政治 选举 、 重 大 灾难 、 电 视 节 目 等 ) 做 出 反应 的 。 对 Twitter 
进行 时 间 序 列 分 析 的 另 一 个 应 用 是 网 络 声誉 管理 。 公 司 可 能 想 监测 用 户 〈 可 能 是 顾客 ) 在 社会 媒 
体 上 对 其 做 出 的 评价 ， 例 如 追踪 用 户 对 新 发 布 产品 的 反应 ， 而 Twitter 的 动态 特性 使 其 成 为 了 极 
佳 的 追踪 工具 。 


我 们 将 用 pandas 的 功能 来 操作 时 间 序 列 ， 并 用 matplotlib 完成 序列 的 可 视 化 。 


# Chap02-03/Lwitter time_series.py 
import sys 

import json 

from datetime import datetime 
import matplotlib.pyplot as plt 
import matplotlib.dates as mdates 























































































































import pandas as pd 
import numpy as np 
import pickle 





if name SE i 
fname = sys.argv[1] 
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with open(fname, 'r') as f: 
all_dates = [] 
I on ly eh ot: 
tweet = json.loads (line) 


all_dates.append (tweet .get ('created at 


')) 


ones = np.ones (len(all_ dates)) 
idx = pd.DatetimeIndex(all_dates) 
# 实际 序列 值 (开始 都 用 1 表示 ) 


my_series = pd.Series (ones, index=idx) 
取样 /分 桶 1 分 钟 数据 

per_minute = my_series.resample!( 
绘制 序列 值 

print (my_series.head()) 

print (Per_minute.head() ) 


'1Min'，how='sum') .fillna(0) 





Fig, ax = plt .subBLlLotes() 
ax.grid (True) 
ax.set_title("Tweet Frequencies") 





hours = mdates.MinuteLocator (interval=20) 
date_formatter = mdates.DateFormatter('%H:%M') 


datemin = datetime(2015, 10, 31, 15, 0) 
邮 datemax = datetime(2015, 10, 31, 18, 0) 
电 ax.xaxis.set_ major_locator (hours) 


ax.xXxaxis.set_ major_formatter (date_ formatter) 
ax.set_xlim(datemin, datemax) 

max_freq = per_ minute.max() 

ax.set_ ylim(0, max_freqg) 
ax.plot (per_minute.index, per_minute) 
plt.savefig(' 


可 以 用 以 下 命令 


tweet_time_series.png') 
运行 以 上 代码 。 
$ python twitter time series.py stream RWC2015 
该 脚本 读 取 作 为 命令 行 参数 的 .jsonl 文件 ， 一 次 导入 一 行 推 文 。 因 为 只 对 推 文 的 发 布 时 间 感 
兴趣 ， 所 以 我 们 创建 一 个 列表 a11_gates， 其 中 包含 每 条 推 文 的 created_at 属性 。 


pandas 序列 的 索引 是 创建 时 间 ,在 idx 变量 中 表示 为 前 面 搜 集 的 日 期 pd .DatetimeIndex。 
这 些 日 期 的 颗粒 度 可 以 到 秒 。 然 后 我 们 用 ones () 函数 创建 了 由 1 组 成 的 np .array， 以 聚合 推 


RWCFinal Rugby.jsonl 
































创建 好 序列 后 , 用 名 为 分 桶 抽样 或 重 抽样 的 方法 改变 我 们 索引 序列 的 方式 , 这 里 以 分 钟 为 单 
位 对 推 文 进行 分 组 。 因 为 指定 了 通过 sum 进行 重 抽样 ， 所 以 每 个 桶 将 包含 一 分 钟 内 发 布 的 推 文 数 


日 。 在 重 抽 样 的 未 尾 加 上 fillna ( 
表示 其 频率 。 当 然 , 我 们 这 个 大 小 id 








0) 以 防止 桶 中 没有 任何 推 


文 。 这 里 ， 桶 不 会 被 丢弃 ， 而 是 用 0 
种 情况 , 但 在 小 数据 集 上 是 有 可 能 发 生 的 。 
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为 了 明确 重 抽样 后 发 生 了 什么 ,我 们 可 以 观察 通过 打印 my_series.heada() 和 per_minute. 
head () 得 到 的 以 下 示例 。 


# 重 抽样 之 前 

# my_series .head() 
2015-10-31 15:11:32 
2015-10-31 15:11:32 
2015-10-31 15:11:32 
2015-10-31 15:11:32 
2015-10-31 15:11:32 
dtype: float64 

# 重 抽样 之 后 

# per minute.head() 
2015-10-31 15:11:00 195 
2015-10-31 15:12:00 476 
2015-10-31 15:13:00 402 
2015-10-31 15:14:00 355 
2015-10-31 15:15:00 466 
dtype: float64 


输出 的 第 一 列 包含 序列 索引 ， 它 是 一 个 aatetime 对 象 ( 时间 精确 到 秒 )， 而 第 二 列 是 与 该 
索引 相关 的 值 ( 频率 )。 

由 于 每 秒 的 推 文 数量 很 大 ， 原 始 的 序列 my_series 多 次 展示 了 同样 的 索引 (如 15:11:32 )。 
一 旦 该 序列 被 重 抽样 ， 序 列 索 引 的 颗粒 度 就 会 降 到 以 分 钟 为 单位 。 


随后 的 代码 用 matplotlib 库 创 建 了 时 间 序 列 分 析 的 良好 可 视 化 。 总 的 来 说 ，matplotlib 比 其 他 
数据 分 析 库 要 繁琐 ， 但 并 不 复杂 。 在 这 个 示例 中 ， 有 趣 的 部 分 是 用 MinuteLocator 和 
DateFormatter 来 正确 标记 x 轴 的 时 间 间 隔 ， 这 里 以 20 分 钟 为 时 间 间 隔 。 


图 像 被 保存 在 tweet_time_series.png 中 ， 如 图 2-4 所 示 。 
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图 2-4 2015 年 橄榄 球 世 界 杯 决赛 期 间 的 推 文 频率 分 布 





2.7 小结 S37 

















2-4 中 的 时 区 是 英国 格林 威 治 标准 时 间 。 决 赛 时 间 是 下 午 4 点。 正如 我 们 看 到 的 ， 当 临近 
开赛 时 间 时 ， 用户 活跃 度 增 强 ， 并 且 开 赛 后 不 久 就 达到 了 峰值 。 在 儿 个 话题 性 时 刻 ， 峰值 超 过 了 
每 分 钟 2000 条 推 文 ， 如 新 西 兰 大 比分 领先 以 及 澳大利亚 队 急 起 直 追 时 ( 对 于 中 立 的 粉丝 来 说 ， 
这 是 一 个 娱乐 性 的 比赛 ) 最 终 的 大 尖峰 发 生 在 比赛 结束 、 颁 奖 礼 和 持续 了 一 段 时 间 的 庆祝 期 间 
(尽管 流 的 停止 时 间 大 约 在 下 午 6 点 )。 




















2.7 小 结 


本 章 介 绍 了 用 Twitter 数据 实现 的 一 些 数据 挖 气 应用。 我 们 讨论 了 如 何 用 Twitter 平台 注册 一 
个 应 用 ， 以 获得 安全 凭证 并 与 Twitter API 交互 。 还 介绍 了 下 载 推 文 的 不 同方 式 ， 特别 是 用 REST 
端点 搜索 已 经 发 布 的 推 文 ， 以 及 用 流 API 保持 连接 为 打开 状态 ， 并 搜集 即将 发 布 的 推 文 。 


当 观 察 一 条 推 文 的 结构 时 ,我 们 发 现 一 条 推 文 远 多 于 140 个 字符 。 实 际 上 , 它 是 一 个 包含 很 
多 信息 的 复杂 对 象 。 


在 刚 开 始 分 析 时 ， 我 们 探讨 了 基于 实体 的 频率 分 析 。 我 们 重点 关注 的 是 Twitter 特有 的 话题 
标签 ,被 用 户 广泛 用 于 跟踪 特定 主题 。 我 们 还 讨论 了 自然 语言 处 理 的 很 多 方面 , 如 分 词 和 词 项 的 
归 一 化 。 正如 我 们 所 看 到 的 ，Twitter 中 使 用 的 语言 并 不 遵循 标准 英语 的 规范 ,而 是 具有 特定 的 特 
征 ， 如 话题 标签 、 用 户 提 及 、URL、 表 情 符号 等 。 另 一 方面 ,我 们 发 现 ， 像 任何 其 他 具有 相当 规 
模 的 自然 语言 语料库 一 样 ，Twitter 中 的 语言 遵循 统计 学 中 的 Zipf 定律。 


在 分 析 的 最 后 , 我 们 介绍 了 时 间 序 列 。 观 察 用 户 如 何 与 实时 事件 交互 非常 有 意思 ， 而 时 间 序 
列 分 析 是 分 析 大 数据 集 的 一 个 强大 的 工具 。 


下 一 章 也 是 关于 Twitter 的 , 但 关注 的 重点 是 用 户 。 我 们 想 了 解 与 这 个 社交 网 络 连接 的 用 户 。 



















































































Twitter 用 户 、 粉 丝 和 社区 











本 章 将 继续 介绍 Twitter 数据 挖掘 。 上 一 章 重点 介绍 了 如 何 分 析 推 文 ， 现 在 我 们 将 注意 力 转 
移 到 用 户 、 用 户 间 的 联系 ， 以 及 他 们 的 互动 。 


本 章 包含 如 下 主题 : 


口 如 何 下 载 给 定 用 户 的 好 友和 粉丝 列表 

口 如 何 分 析 用 户 、 互 粉 好 友 等 群体 间 的 联系 

口 如 何 度量 用 户 在 Twitter 上 的 影响 力 和 参与 度 
口 聚 类 算法 ， 以 及 如 何 使 用 scikit-learn 聚集 用 户 

D 网 络 分 析 ， 以 及 如 何 使 用 它 在 Twitter 上 挖掘 对 话 
口 如 何 创建 动态 地 图 以 显示 推 文 的 位 置 























3.1 用 户 、 好 友和 粉丝 


Twitter 和 其 他 流行 社交 网 络 的 主要 区 别 之 一 是 用 户 连 接 的 方式 .Twitter 上 的 关系 不 一 定 是 双 
向 的 。 用 户 可 以 选择 订阅 其 他 用 户 的 推 文 ， 成 为 他 们 的 粉丝 ( 即 关注 他 们 )， 但 这 种 关注 行为 不 
一 定 会 得 到 回报 ( 回 粉 )。 这 与 Facebook、LinkedIn 等 其 他 社交 网 络 的 情况 截然 不 同 在 这 些 
社交 网 络 中 ， 关 系 的 建立 必须 得 到 双方 的 确认 。 


依照 Twitter 的 术语 ， 两 类 社交 关系 〈 我 关注 的 人 和 关注 我 的 人 ) 有 不 同 的 名 称 。 我 关注 的 
人 称 为 好 友 ， 关 注 我 的 人 称 为 我 的 粉丝 。 当 一 对 用 户 的 关系 是 双向 的 ， 通 常 描述 为 互 粉 。 


















































3.1.1 回 到 Twitter API 


Twitter API 提供 了 几 个 端点 来 检索 有 关 粉 丝 、 好 友和 用 户 资料 的 信息 。 具 体 端点 的 选择 由 要 
解决 的 任务 决定 。 


快速 浏览 一 下 开发 者 文档 ， 会 发 现 其 中 一 些 有 趣 的 端点 。 
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从 单 用 户 资料 开始 ， 明 显 可 以 使 用 的 端点 是 users/show: 给 定 昵称 或 用 户 ID ， 端 点 将 检 
索 用 户 的 完整 资料 。 此 功能 严重 受到 访问 频率 限制 ， 因 为 每 15 分 钟 只 能 有 180 个 请 求 ， 这 意味 
着 在 15 分 钟 的 窗口 中 只 有 180 份 用 户 资料 。 鉴 于 此 限制 ， 只 在 需要 检索 特定 的 用 户 资料 时 ， 才 
应 该 使 用 该 端点 ， 而 且 该 端点 不 适合 批量 下 载 。 


可 以 用 followers/1ist 端点 检索 给 定 用 户 的 粉丝 列表 ， 该 功能 在 Tweepy 中 通过 
API .followers () 函数 实现 。 与 之 类 似 ，followers/1ist 端点 允许 通过 Tweepy 实现 来 检索 
给 定 用 户 的 好 友 列 表 ， 该 功能 在 Tweepy 中 通过 API .friends () 实 现 。 这 些 端点 的 主要 问题 是 
严格 的 频率 限制 : 15 分 钟 窗口 中 只 有 15 个 请 求 , 每 个 请 求 最 多 可 提供 20 份 用 户 资料 。 这 意味 着 
每 15 分 钟 最 多 可 检索 300 份 用 户 资料 。 


虽然 这 种 方法 对 于 拥有 少量 粉丝 和 好 友 的 用 户 资料 可 行 ， 但 拥有 数 千 名 粉丝 (对 名 人 而 言 ， 
可 能 会 达到 数 百 万 ) 的 用 户 资料 并 不 少见 。 


此 限制 的 解决 方法 基于 更 适合 大 批 数据 的 其 他 端点 的 组 合 。followers/ids 端点 可 以 针对 
每 个 请 求 返回 5000 个 用 户 站。 虽然 在 15 分 钟 的 窗口 中 也 限制 为 15 个 请 求 ， 但 很 容易 计算 出 可 
以 检索 到 的 最 终 用 户 DD 数 (每 15 分 钟 75 000 个 )， 比 之 前 的 限制 好 多 了 。 


使 用 followersy/ids 端点 后 ， 我 们 拥有 的 是 与 用 户 的 粉丝 对 应 的 用 户 ID 列表 ,但 还 没有 
完整 的 资料 。 解 决 方案 是 , 将 这 些 用 户 ID 作为 users/1lookup 端口 的 输入 。 该 端口 最 多 可 以 输 
入 100 个 ,提供 相应 的 完整 资料 的 列表 作为 输出 。users/1lookup 的 频率 限制 设置 为 每 15 分 
钟 180 个 ， 即 每 15 分 钟 18 000 份 资料 。 这 个 数字 有 效 地 限制 了 下 载 次 数 。 


如 果 想 要 下 载 一 批 好 友 的 个 人 资料 ， 解 决 方法 是 将 friends/igds 端点 与 上 述 users/ 
lookup 结合 在 一 起 。 在 频率 限制 方面 ， 下 载 好 友 的 ID 时 会 遇 到 与 下 载 粉 丝 ID 时 相同 的 限制 。 
一 个 需要 避免 的 小 错误 是 将 两 个 下 载 过 程 当 作 完 全 独立 的 ; 记 住 ，users/1lookup 是 下 载 瓶 颈 。 
对 于 下 载 好 友和 粉丝 个 人 资料 的 脚本 来 说 ， 要 考虑 到 这 两 个 下 载 过 程 都 需要 users/1lookup 端 
点 ， 因 此 ， 向 users/1lookup 发 起 的 请 求 总 数 是 好 友 下 载 量 和 粉丝 下 载 量 的 总 和 。 对 于 既是 好 
友 又 是 粉丝 的 用 户 ， 只 需要 查找 一 次 。 














































































































3.1.2 ”用户 资料 的 结构 


在 详细 了 解 如何 下 载 大 量 粉丝 和 好 友 的 个 人 资料 前 , 我 们 先 探究 一 下 单个 用 户 的 情况 来 了 解 
用 户 个 人 资料 的 结构 。 可 以 使 用 users/show 端点 ， 因 为 这 是 一 个 一 次 性 的 示例 ， 所 以 不 会 达 
到 频率 限制 (下 一 节 将 讨论 批量 下 载 )。 


该 端点 可 以 在 Tweepy 中 通过 API .get_user () 函数 实现 。 我 们 可 以 复 用 第 2 章 中 定义 的 鉴 
权 代码 (需要 确认 已 经 正确 配置 了 环境 变量 )。 在 交互 式 解释 器 中 输入 以 下 命令 。 
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>>> from twitter client import get twitter client 
>>> import json 

>>> client = get twitter client() 

>>> profile = client.get user(screen name="PacktPub") 
>>> print (json.dumps (profile. json, indent=4)) 


以 上 代码 比较 直观 。 完 成 鉴 权 后 ,可 以 用 一 个 API 调用 来 下 载 用 户 资 料 。 函 数 调 用 返回 的 对 











象 是 tweepy .models .User 类 的 一 个 实例 ,第 2 章 中 介绍 过 ， 它 是 用 于 存储 不 同 用 户 


装 器 。Twitter 的 原始 JSON 响应 以 一 个 Python 字典 的 形式 存储 在 _json 属性 中 ， 











json.dumps () 和 indaent 参数 将 该 属性 漂亮 地 打印 到 屏幕 上 。 











我 们 将 看 到 一 个 与 以 下 代码 段 类 似 的 JSON 片段 (为 简洁 起 见 ， 省 略 了 一 些 属性 )。 


{ 
"screen name": "PacktPub", 
"name": "Packt Publishing", 
"location": "Birmingham, UK", 
Tid T7778401; 
"1 Strv “778A0LT. 
"description": "Providing books, eBooks, video tutorials, and 
articles for IT developers, administrators, and users.", 
"followers_count": 10209, 
"friends_count": 3583, 
"follow_request_sent": false, 
SEE 
"favourites_count": 556, 
"protected": false, 
"verified": false, 
"statuses_count": 10802, 
"Tang ‘ert, 
"entities": { 
"description": { 
"rks. 
js 
WU 
"UrEs": | 
{ 
"jndices": [ 
0 
2 
], 
"display_url": "PacktPub.com", 
"expanded_url": "http://www.PacktPub.com", 
TEL “http://t.. Co/vEPCIg9OU235" 


} 
"following": true, 
"geo_enabled": true, 
"time zone": "London", 
"utc_offset": 0, 





属性 的 包 
可 以 用 
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表 3-1 给 出 了 我 们 可 以 找到 的 所 有 字段 的 详细 摘 述 。 


表 3-1 用 户 资料 属性 及 其 描述 



































































































































































































































































































































































































































属性 名 称 描述 
_json 带 有 用 户 资料 的 JSON 状态 响应 的 字典 
created_at 创建 用 户 账户 的 UTC 时间 
contributors_enabled 表示 贡献 者 模式 为 开启 状态 ( 极 少 为 true ) 的 标记 
default_profile 表示 用 户 未 改变 资料 主题 的 标记 
description 描述 用 户 资料 的 字符 串 
default_profile_image 表示 用 户 没有 自 定义 资料 图 片 的 标记 
entities URL 或 描述 中 的 实体 列表 
followers_count 粉丝 的 数量 
follow_request_sent 表示 是 否 有 关注 请 求 的 标记 
favourites_count 户 喜 欢 的 推 文 数量 
following 表示 鉴 权 用 户 是 否 正在 关注 的 标记 
friends_count 朋友 的 数量 
geo_enabled 表示 地 理 标签 为 开启 状态 的 标记 
id ] 户 的 唯一 JD， 是 一 个 较 大 的 整数 
ia_str j 户 的 唯一 ID， 是 一 个 字符 串 
is_translator 表示 用 户 为 Twitter 翻译 者 社区 成 员 的 标记 
lang 户 的 语言 代码 
listed_count j 户 所 属 的 公众 用 户 列表 的 数量 
location j 户 声明 的 位 置 的 字符 串 
name ] 户 的 名 全 
profile_* 与 用 户 资料 相关 的 信息 的 数量 ( 指 以 下 与 资料 相关 的 属性 列表 ) 
protected 表示 用 户 是 否 隐藏 其 推 文 的 标记 
status 这 是 最 新 推 文中 的 垦 入 对 象 ( 所 有 字段 参考 第 2 章 ) 
screen_name 户 的 昵称， 即 Twitter 用 户 名 
statuses_count 推 文 的 数量 
time_zone ] 户 声明 的 时 区 字符 串 
utc_offset 与 GMT/UTC 的 偏差 ， 单 位 为 秒 
url 户 提 供 的 与 资料 相关 的 URL 
verified 表示 是 否 已 经 认证 用 户 的 标记 

















与 用 户 资 料 相 关 的 属性 如 下 所 示 。 


口 profile_background_color: 这 是 用 户 为 其 背景 选 定 的 十 六 进 制 颜色 代码 值 
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口 profile_backgroung_tile: 这 是 一 个 标记 ， 表 明显 示 profile_background_image_ 
url 时 应 该 平 铺 

DQ profile link_ color: 这 是 用 户 选 定 在 Twitter UI 中 显示 链接 的 十 六 进 制 颜色 代码 值 
口 profile_use_backgroungd_image: 这 是 一 个 标记 ， 表 示 用 户 想 要 采用 自己 上 传 的 背 
景 图 片 

口 brofile_backgrouna_image_ur1: 这 是 一 个 基于 HTTP 的 URL， 指 向 上 传 的 背景 图 片 
口 profile_backgroung_image_url_https: 同上 ， 但 这 是 基于 HTTPS 的 URL 

口 brofile_text_color: 这 是 用 户 选 定 在 Twitter UI 中 显示 文本 的 十 六 进 制 颜色 代码 值 
口 profile_banner_url: 这 是 一 个 基于 HTTPS 的 URL， 指 向 用 户 上 传 的 资料 横幅 

口 brofile_siqebar_fil1_color: 这 是 用 户 选 定 在 Twitter UI 中 显示 侧 边栏 背景 的 十 六 
进 制 颜色 代码 值 

D profile_image_url: 这 是 一 个 基于 HTTPS 的 URL， 指 向 用 户 的 头像 

口 brofile_image_url_https: 同上 , 但 这 是 基于 HTTPS 的 URL 

口 profile_sidepbar_border_color: 这 是 用 户 选 定 在 Twitter UI 中 显示 侧 边 栏 边框 的 十 
六 进 制 颜色 代码 值 


接 下 来 将 介绍 如 何 下 载 用 户 的 好 友和 粉丝 的 资料 。 







































































3.1.3 下载 好 友和 粉丝 的 资料 


我 们 在 前 一 节 中 讨论 了 相关 端点 ,下 面 创建 一 个 脚本 ,以 一 个 用 户 名 (昵称 ) 作为 输入 ,并 
下 载 他 的 完整 信息 、 粉 丝 列表 ( 包括 完整 资料 ) 以 及 好 友 列 表 ( 包括 完整 资料 )。 


# Chap02-03/twitter_get _ user.py 

import os 

import sys 

import json 

import time 

import math 

from tweepy import Cursor 

from twitter client import get_ twitter client 








MAX_FRIENDS = 15000 


def usage(): 
print ("Usage:") 
print ("python {} <username>".format (sys.argv[0])) 


def paginate(items, n): 
mn "为 词 项 生成 长 度 为 n 的 块 """ 
for i in range(0, len(items), n): 
yield items[i:i+n] 


下 name == ai 
if len(sys.argv) != 2: 
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usage() 

Sy Ss :eit (Ly 
screen name = sys.argv[1] 
client = get_ twitter client() 
dirname = "users/{}".format (screen name) 
max_pages = math.ceil (MAX_FRIENDS / 5000) 
try: 


os.makedirs (dirname, mode=00755, exist_ok=True) 
except OSError: 
print ("Directory {} already exists".format (dirname)) 
except Exception as e: 
print ("Error while creating directory {}".format (dirname)) 
print (e) 
SYS .exit (1) 





# 获取 给 定 用 户 的 粉丝 
fname = "users/{}/followers.jsonl".format (screen name) 
with open(fname, 'w') as f: 
for followers in Cursor(client.followers_ids, 
screen_ name=screen name) .pages (max_pages): 
for chunk in paginate(followers, 100): 
users = client.lookup users (user_ids=chunk) 
for user in users: 
f.write(json.dumps (user._json)+"\n") 
if len(followers) == 5000: 
print ("More results available. Sleeping for 60 seconds to 
avoid rate limit") 
time.sleep(60) 


# 获取 给 定 用 户 的 好 友 
fname = "users/{}/friends.jsonl".format (screen name) 
with open(fname, 'w') as f: 
for friends in Cursor(client .friendqs_iqs， 
Screen_name=Sctreen_name) .pages (max_pages): 
for chunk in paginate (friends, 100): 
users = client.lookup users (user_ids=chunk) 
for user in users: 
f.write(json.dumps (user._json)+"\n") 
if len(friends) == 5000: 
print ("More results available. Sleeping for 60 seconds to 
avoid rate limit") 
time.sleep(60) 


# 获取 用 户 资料 
fname = "users/{}/user_profile.json".format (screen name) 
with open(fname, 'w') as f: 
profile = client.get user(screen name=screen name) 
f.write(json.dumps (profile._ json, indent=4)) 


以 上 代码 需要 从 命令 行 传人 一 个 参数 , 即 你 想 要 分 析 的 用 户 昵称 。 例 如 ,可 以 用 以 下 命令 运 
行 代码 。 





$ Python twitter get user.py PacktPub 
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在 撰写 本 书 时 ，PacktPub 已 经 拥有 10 000 多 名 粉丝 ， 所 以 由 于 API 的 接口 访问 限制 ， 该 代 
码 的 运行 时 间 会 超过 2 分 钟 。 正 如 第 2 章 中 所 说 ,该 脚本 用 time .sleep () 来 减 慢 程序 的 运行 速 
度 ， 以 避免 触及 接口 访问 频率 限制 。 该 API 规 定 了 传递 给 sleep () 函数 的 秒 数 。 





3.1.4 分析 你 的 社会 网 络 


下 载 好 给 定 用 户 的 好 友和 粉丝 数据 后 ， 可 以 尝试 对 这 些 连接 创建 的 网 络 结构 做 探索 性 分 析 。 
图 3-1 展示 了 一 个 虚构 的 用 户 网 络 示例 ， 从 第 一 人 称 的 角度 高 亮 显 示 了 用 户 间 的 链接 关系 〈 即 从 
标记 为 我 的 用 户 的 角度 ， 以 第 一 人 称 视角 描述 这 张 图 片 )。 























互 粉 








图 3-1 你 的 社会 网 络 示 例 : 好 友 、 粉 丝 和 互 粉 的 好 友 





在 这 个 示例 中 ， 我 与 4 名 用 户 连 接 : PETER 和 JOHN 关注 了 我 ( 因此 他 们 被 标记 为 粉丝 )， 
而 我 关注 了 LUCY、MARY 和 JOHN ( 因此 他 们 被 标记 为 好 友 )。JOHN 同时 属于 两 个 组 : 好友 
和 粉丝 的 交集 称 作 互 粉 好 友 。 


我 们 并 不 能 从 图 3-1 中 得 知 这 4 名 用 户 之 间 是 否 存 在 连接 关系 。 这 是 由 我 们 在 前 一 节 中 下 载 
的 数据 决定 的 : 我 们 只 拥有 给 定 用 户 的 好 友和 粉丝 信息 ， 如 果 想 要 发 现 他 们 之 间 的 连接 ,可 以 进 
一 步 迭 代 所 有 这 些 粉丝 和 好 友 的 资料 ， 并 下 载 相关 数据 。 























基于 这 些 数据 ,我们 拥有 了 粉丝 和 好 友 数 量 的 基本 统计 值 ， 现 在 可 以 回答 以 下 基本 问题 。 


口 谁 是 我 的 互 粉 好 友 ? 
口 我 关注 的 哪些 人 没有 回 粉 ? 
口 我 没有 回 粉 哪些 粉丝 ? 


以 下 代码 读 人 前 面 下 载 的 JSONL 文件 并 计算 相关 的 统计 值 ， 以 回答 上 述 问题 。 
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# Chap02-03/twitter_followers_stats.py 
import sys 

import json 

from random import sample 

import time 


def usage(): 
print ("Usage:") 
print ("python {} <username>".format (sys.argv[0])) 








人 marme SY 
If len(sys.argv) != 2: 
usage() 
sys.exit (1) 
screen name = sys.argv[1] 
followers_file = 'users/{}/followers.jsonl'.format (screen name) 
friends_file = 'users/{}/friends.jsonl'.format (screen name) 


with open(followers_file) as f1, open(friends_file) as f2: 
t0 = 上 ime.time() 

followers = [] 

friends = [] 

FOr 下 TE 下 十: 

profile = json.loads (line) 

followers.append (profilel'screen name']) 

FOr Tine, Tn £22 
profile = json.loads (line) 
friends.append (profile['screen name']) 
tl = time.time() 








mutual_friends = [user for user in friends if user in followers] 

followers_not_following = [user for user in followers if user not in friends] 

friends_not_following = [user for user in friends if user not in followers] 

t2 = time.time() 

print (=r Timing 一 = 一 一 一 i 

print ("Initialize data: {}".format (t1-t0)) 

print ("Set-based operations: {}".format (t2-t1)) 

print ("Total time: {}".format (t2-t0)) 

print ("-----— State 一 一 一 = 一 

print("{} has {} followers".format (screen name, len(followers))) 

print("{} has {} friends".format (screen name, len(friends))) 

print("{} has {} mutual friends".format (screen name, len(mutual_ friends))) 

print ("{} friends are not following {} back".format (len(friends_not_following), 
screen_name)) 

print("{} followers are not followed back by {}".format (len(followers_not_ 





following), screen name)) 





some_ mutual_friends = ', '.join(sample(mutual_ friends, 5)) 
print ("Some mutual friends: {}".format (some_ mutual_friends)) 


运行 以 上 代码 需要 从 命令 行 传人 一 个 用 户 名 参数 。 可 以 用 以 下 命令 运行 该 脚本 。 
$ python twitter followers_ stats.py PacktPub 


输出 结果 如 下 所 示 。 
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PacktPub has 10209 followers 

PacktPub has 3583 friends 

PacktPub has 2180 mutual friends 

1403 friends are not following PacktPub back 
8029 followers are not followed back by PacktPub 

















用 于 处 理 好 友和 粉丝 的 数据 类 型 是 常规 的 Python 1ist () ， 填 充 的 元 素 是 用 户 名 (准确 地 说 





于 计算 不 同 的 统计 指标 。 
Python 中 的 列表 推导 式 


是 screen_name )。 该 代码 读 和 两 个 JSONL 文件 ， 并 分 别 将 昵称 加 入 列表 。 三 个 列表 推导 式 用 





Python 支持 名 为 “列表 推导 式 ” 的 概念 ， 它 是 一 种 将 一 个 列表 ( 或 任何 可 迭代 的 
数据 结构 ) 优雅 地 转换 为 另 一 个 列表 的 方式 。 在 这 个 过 程 中 ,， 自 定义 函数 会 有 条 


件 地 筛选 并 转换 元 素 ， 如 下 所 示 。 


(| 
[x*x for x in numbers] 


>>> numbers = 
>>> squares = 
>>> squares 


EB; ,9 6 


6 前 面 的 列表 推导 式 与 以 下 代码 等 价 。 


»> > "SAUares = [|] 
>>> for x in numbers: 
squares .append (x*x) 


>>> squares 
| | 


列表 推导 式 的 一 个 优点 是 可 以 用 普通 英语 读 懂 ， 因 此 代码 的 可 读 性 很 强 。 


推导 式 不 局 限于 列表 ， 实 际 上 ， 它 还 可 以 用 于 创建 字典 。 








实现 方面 还 需要 考虑 以 下 几 点 。 首 先 ，JSONL 文件 将 包括 唯一 的 资料 ， 每 个 粉丝 ( 或 好 友 ) 
只 会 列举 一 次 ， 因 此 不 会 有 重复 的 项 。 其 次 ， 当 计算 前 面 的 统计 值 时 ， 每 一 项 的 顺序 不 相关 。 























此 ， 实 际 上 我 们 做 的 是 基于 集合 的 操作 ( 这 个 示例 中 是 交集 和 差 集 )。 





可 以 用 set () 来 重 构 我 们 的 代码 ,以 实现 基本 的 统计 。 代 码 的 主要 变化 是 需要 重新 导 人 数据 ， 


并 计算 互 粉 好 友 、 单 方 关注 的 好 友和 单方 关注 的 粉丝 。 


with open(followers_file) as fl1，open(friends_file) as f2: 
followers = set() 
friends = set() 
下 避 区 7 让 种 鹤 全 和 人 二 阁 
profile = json.loads (line) 
followers.add(profile['screen name']) 
for line in f2: 
profile = json.loads (line) 
friends.add (profile['screen name']) 
mutual_friends = friends.intersection(followers) 
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followers_not_following = followers.difference (friends) 
friends_not_following = friends.difference (followers) 


该 代码 的 输出 结果 与 使 用 列表 的 输出 结果 相同 。 相 较 于 列表 来 说 , 使 用 集合 的 主要 优势 在 于 
计算 的 复杂 度 : 对 包含 ( 即 检查 item in list 或 item in set ) 这 样 的 操作 来 说 ， 列 表 的 运行 
时 间 是 线性 的 ， 而 集合 的 运行 时 间 是 和 常量。 包含 用 于 构建 mutual_friends、followers_not_ 
following 和 friends_not_following, 因此 这 个 简单 的 优化 将 显著 改善 代码 的 运行 时 间 。 
对 于 拥有 很 多 粉丝 /好 友 的 分 析 来 说 ， 这 个 区 别 更 加 明显 ， 因 为 列表 的 运行 时 间 是 线性 增长 的 。 


计算 的 复杂 度 

前 面 我 们 使 用 了 线性 时 间 、 常 量 时 间 、 线 性 复杂 度 等 词语 。 计算 复 杂 度 是 计算 机 

科学 中 非常 重要 的 一 个 概念 ， 它 主要 考虑 运行 算法 需要 占用 的 资源 。 这 里 我 们 将 

介绍 时 间 复 杂 度 和 运行 算法 需要 占用 的 时 间 ， 它 是 一 个 与 输入 大 小 相关 的 函数 。 

当 一 个 算法 以 线性 时 间 运 行 时 , 对 于 较 大 的 输入 , 其 运行 时 间 随 输入 的 扩大 呈 线 性 
9 增长 。 时 间 复 杂 度 的 数学 表示 是 O(n) (也 称 作 大 0 表示)， 其 中 卫 是 输入 的 大 小 。 

对 于 以 常数 时 间 运 行 的 算法 来 说 ， 输 入 的 大 小 并 不 影响 运行 时 间 。 这 种 情况 下 ， 

时 间 复 杂 度 表示 为 0(1)。 

总 的 来 说 , 理解 不 同 操作 和 数据 结构 的 复杂 度 是 开发 高 效 程序 的 关键 步骤 ,因为 

这 对 系统 的 性 能 有 较 大 影响 。 


至 此 ,你 可 能 会 对 NumPy 等 库 的 使 用 感 兴趣 。 第 1 章 中 介绍 过 ，NumPy 为 类 似 数组 的 数据 
结构 提供 了 快速 高 效 的 处 理 ， 并 极 大 提升 了 简单 列表 的 性 能 。 虽然 NumPy 对 速度 进行 过 优化 ， 
但 这 里 使 用 NumPy 并 不 会 显著 提升 性 能 , 因为 包含 操作 的 计算 开销 与 列表 相同 。 使 用 NumPy 重 
构 上 述 代码 产生 的 结果 如 下 所 示 。 
















































































with open(followers_file) as f1, open(friends_ file) as f2: 

followers = [] 

friends = [] 

民工 宇和 人 Tn £1 

profile = json.loads (line) 

followers.append (profilel[l'screen name']) 

for: Tine ‘in 法 2 3 

profile = json.loads (line) 

friends.append (profile['screen name']) 

followers = np.array (followers) 

friends = np.array (friends) 

mutual_friends = np.intersectld (friends, 
followers, 





assume_unique=True) 
followers_not_following = np.setdiffilid(followers, 
friends, 
assume_unique=True) 
friends_not_following = np.setdiffld(friends, 
followers, 
assume_unique=True) 
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正如 第 1 章 中 所 说 ,这 段 代 码 假设 我 们 已 经 用 np 别名 导入 了 NumPy。 这 个 库 也 提供 了 类 似 
集合 的 操作 intersectld 和 setdiff1da， 但 其 底层 的 数据 结构 仍然 是 类 似 数 组 的 对 象 ( 如 列 
表 )。 这 些 函 数 的 第 三 个 参数 assume_uniaue 用 于 输入 数组 具有 唯一 元 素 时 ,如 以 上 示例 所 示 。 
这 样 做 可 以 加 速 计算 ,但 底线 仍然 相同 : 当 粉 丝 /好 友 数 众多 时 ， 集 合 会 更 快 地 执行 这 些 操作 。 
如 果 粉 丝 / 好 友 数 量 很 少 ， 那 么 这 些 操作 在 性 能 上 的 差别 不 会 很 明显 。 


本 书 中 的 源 代 码 提 供 了 三 种 实现 ， 分 布 在 twitter_followers_stats.py、 twitter_ 
followers_stats_set.py 和 twitter_followers_stats_numpy .py, 并 且 其 中 包含 了 运 


行 时 间 的 计算 ， 因 此 你 可 以 用 不 同 的 数据 来 做 实验 。 






































对 代码 重 构 这 个 插曲 做 个 总 结 -这 里 想 表 达 的 主要 思想 是 ,对 于 正在 处 理 的 操作 ， 
需要 选择 最 合适 的 数据 结构 。 


3.1.5 ”度量 影响 力 和 参与 度 


社会 媒体 领域 最 常 提 及 的 一 个 角色 是 神秘 的 影响 者 , 这 种 角色 造成 了 最 近 市 场 营 销 策略 的 范 
式 转变 ， 即 以 关键 个 人 而 不 是 整个 市 场 为 目标 。 


影响 者 通常 是 社区 中 的 活路 用户。 在 Twitter 中 ， 影 响 者 会 发 布 人 们 关心 的 很 多 话题 。 影 响 
者 和 社区 中 的 很 多 其 他 用 户 都 存在 着 关注 和 被 关注 的 连接 关系 。 通常 , 影响 者 通常 也 被 视 为 其 所 
在 领域 的 专家 ， 并 受到 其 他 用 户 信任 。 


以 上 描述 解释 了 为 什么 影响 者 对 于 近期 的 营销 趋势 有 较 大 影响 一 一 影响 者 可 以 增强 人 们 对 
特定 产品 或 品牌 的 意识 ， 其 至 成 为 产品 或 品牌 的 推荐 人 ， 帮 助 其 获得 众多 支持 者 。 


不 论 你 的 主要 兴趣 是 Python 编程 还 是 品尝 红酒 ， 不 管 你 的 社会 网 络 是 大 是 小 ， 你 都 应 该 知 
道 谁 是 你 的 社交 圈 中 的 影响 者 : 一 个 好 友 、 一 位 熟人 , 或 互联 网 上 随机 的 陌生 人 一 一 你 十 分 信任 
和 看 重 他 的 意见 ， 因 为 他 具有 特定 领域 的 专业 知识 。 


一 个 不 同 但 相关 的 概念 是 参与 度 。 用 户 参 与 度 (或 客户 参与 度 ) 是 对 特定 产品 或 服务 的 响应 
的 评估 。 在 社会 媒体 中 ,有 些 内 容 的 创建 目的 是 增加 公司 网 站 或 者 电子 商务 的 流量 。 度 量 参与 度 
非常 重要 ， 因 为 它 可 以 帮助 我 们 定义 和 理解 营销 策略 ， 以 便 最 大 化 与 所 在 社会 网 络 的 互动 ,最终 
带 来 生意 。 存 Twitter 中 ,用户 参与 是 指 转发 或 者 喜欢 某 条 推 文 ， 这 些 行为 增强 了 原始 推 文 的 可 
见 性 。 


接 下 来 我 们 将 介绍 社会 媒体 分 析 中 一 些 非 常 有 趣 的 方面 , 其 中 包括 度量 影响 力 和 参与 度 。 在 
Twitter 中 , 一 种 很 自然 的 想法 是 将 特定 网 络 的 影响 力 与 其 用 户 数量 关联 起 来 。 直 观 来 看 , 拥有 大 
量 粉 丝 意味 着 用 户 可 以 连接 到 更 多 的 人 ， 但 这 并 不 能 说 明 一 条 推 文 是 如 何 被 感知 的 。 


以 下 代码 比较 了 两 份 用 户 资料 的 一 些 统计 值 。 
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# Chap02-03/twitter_influence.py 
import sys 
import json 


def usage() : 
print ("Usage:") 
print ("python {} <usernamel> <username2>".format (sys.argv{[0])) 





if marme 三 三 人 
if len(sys.argv) != 3: 
usage() 
sys.exit (1) 
screen namel = sys.argv[1] 


Screen_name2 = sys.argv[2] = 


从 命令 行 读 入 两 个 昵称 后 ， 可 以 分 别 为 这 两 位 用 户 构 建 粉丝 列表 ( 包括 粉丝 的 数量 )， 以 计 
算 可 连接 的 用 户 数量 。 











followers_filel = 'users/{}/followers.jsonl'.format (screen namel) 
followers_file2 = 'users/{}/followers.jsonl'.format (screen name2) 
with open(followers_filel) as f1, open(followers_file2) as f2: 
reachl1 = [] 
reach2 = [] 


fOr Line in ££.: 

profile = json.loads (line) 

reachl .append( (profile['screen name'], 
profile['followers_count'])) 
for line in f2: 

profile = json.loads (line) 

reach2.append( (profile['screen name'], 

profile['followers_count'])) 


然后 从 两 份 用 户 资料 导入 一 些 基 本 统计 值 ( 粉丝 数量 和 状态 数量 )。 





profile_ filel = 'users/{}/user_profile.json'.format (screen namel) 
profile file2 = 'users/{}/user_profile.json'.format (screen name2) 
with open(profile filel) as f1, open(profile file2) as f2: 

profilel = json.load(f1) 

profile2 = json.load(f2) 

followersl = profilel['followers_ count'] 

followers2 = profile2['followers_ count'] 

tweetsl = profilel['statuses_count'] 

tweets2 = profile2['statuses_count'] 


sum reachl = sum([x[1] for x in reach1]) 
sum reach2 = sum([x[1] for x in reach2]) 
avg_followersl = round(sum reachl / followersl, 2) 
avg_followers2 = round(sum reach2 / followers2, 2) 


接着 导入 两 个 用 户 的 时 间 线 ， 并 观察 他 们 的 推 文 被 喜欢 或 转发 的 次 数 。 


timeline filel = 'user timeline_{}).json1' .format(screen_name1) 
timeline file2 = 'user timeline {}.jsonl'.format (screen name2) 
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with open(timeline filel) as f1, open(timeline file2) as f2: 
favorite_count1, retweet_countl1 = [], [] 
favorite_count2, retweet_count2 = [], [] 
for line in f1: 
tweet = json.loads (line) 
favorite countl.append (tweet['favorite count']) 
retweet_countl1.append (tweet['retweet_count']) 
for line in f2: 
tweet = json.loads (line) 
favorite count2.append (tweet['favorite count']) 
retweet_count2.append (tweet['retweet_count']) 


以 上 数量 聚合 为 喜欢 和 转发 的 平均 数量 ， 而 且 都 是 绝对 值 且 基于 粉丝 数量 。 


roundq(sum(favorite_count1) / tweets1，2) 
avg_favorite2 round (suml(favorite count2) / tweets2, 2) 
avg_retweetl1 = round(sum(retweet_count1) / tweetsl, 2) 
avg_retweet2 = round(sum(retweet_count2) / tweets2, 2) 
favorite per userl = round(sum(favorite count1) / followersl, 2) 
favorite per user2 = round(sum(favorite count2) / followers2, 2) 
retweet_per_userl1 = round(sum(retweet_count1) / followersl1, 2) 
retweet_per_ user2 = round(sum(retweet_count2) / followers2, 2) 
Briiit (== Stabts. x = " .format (screen_ namel) 

print ("{} followers".format (followers1)) 

print ("{} users reached by 1-dqegree 
connections".format (sum reach]1)) 

print ("Average number of followers for {}'s followers: 
{}".format (screen namel, avg_followersl)) 

print ("Favorited {} times ({} per tweet, {} per 
user)".format (sum(favorite count1), avg_favoritel, 
favorite per_userl1)) 
print ("Retweeted {} times ({} per tweet, {} per 


avg_favoritel 





user)".format (sum(retweet_count1), avg_retweet!l, 
retweet_per_userl)) 
brinit ("se= ESEES Ss " .format (screen_ name2)) 
print ("{} followers".format (followers2)) 
print ("{} users reached by 1-dqegree 


connections".format (sum_ reach2)) 

print ("Average number of followers for {}'s followers: 
{}".format (screen name2, avg_followers2)) 

print ("Favorited {} times ({} per tweet, {} per 
user)".format (sum(favorite_ count2), avg_favorite2, 
favorite per_user2)) 
print ("Retweeted {} times ({} Per tweet, {} Per 
user)".format (sum(retweet_count2), avg_retweet2, 
retweet_per_user2)) 


以 上 脚本 从 命令 行 传 入 两 个 参数 ,并 假设 已 经 下 载 好 数据 。 对 于 这 两 个 用 户 , 我 们 需要 他 们 








的 粉丝 数据 (用 twitter_get_user.py 脚本 下 载 ) 及 其 各 自 的 时 间 线 (用 第 2 章 中 的 


twitter_get_user timeline.py 下 载 )。 





以 上 代码 有 些 元 长 , 因为 对 两 份 用 户 资料 计算 了 相同 的 操作 , 并 且 将 所 有 的 东西 打印 到 了 终 
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端 。 我 们 可 以 将 其 分 解 为 不 同 部 分 。 


首先 , 研究 一 下 粉丝 的 粉丝 。 这 将 提供 与 给 定 用 户 直 接连 接 的 那 部 分 网 络 的 信息 。 换 句 话说 ， 
它 可 以 回答 以 下 问题 : 如 果 所 有 粉丝 都 转发 我 的 推 文 , 会 有 多 少 用 户 可 以 看 到 ? 为 了 回答 上 述 问 
题 ， 我们 读 和 人 users/<user>/followers.jsonl 文件 并 获取 一 个 元 组 列表 ， 其 中 每 个 元 组 表示 其 中 一 个 
粉丝 的 (screen_name，followers_count) 信息。 这 里 保留 昵称 对 后 续 找 出 谁 的 粉丝 数量 最 多 
非常 有 用 (并 没有 在 代码 中 直接 计算 ， 可 以 用 sorted() 函数 轻松 生成 )。 


第 二 步 ， 从 users/<user>/user_profile.json 文件 中 读 入 用 户 资料 ， 以 获得 有 关 粉 丝 和 推 文 总 量 
的 信息 。 基 于 目前 收集 到 的 数据 ,我 们 可 以 计算 一 度 分 隔 ( 即 粉丝 的 粉丝 ) 内 可 以 连接 到 的 用 户 
总 数 ， 以 及 粉丝 的 粉丝 的 平均 数量 。 可 以 通过 以 下 代码 计算 。 






































sum reachl = sum([x[1] for x in reach1]) 
avg_followersl = round(sum reach1 / followersl1, 2) 


第 一 行 代码 用 一 个 列表 推导 式 来 迭代 前 面 提 到 的 元 组 列表 , 第 二 行 代码 是 一 个 简单 的 算术 求 
平均 ， 并 四 舍 五 入 保留 两 位 小 数 。 

代码 的 第 三 部 分 从 第 2 章 生 成 的 user_timeline <user>.jsonl 文件 读 和 信用 户 时 间 线 ， 并 收集 有 
关 每 条 推 文 转发 和 喜欢 的 信息 。 综合 所 有 信息 后 ,可 以 计算 出 一 位 用 户 的 推 文 被 转发 和 喜欢 的 次 
数 ， 以 及 相对 于 每 条 推 文 和 每 个 粉丝 来 说 ， 推 文 被 转发 和 喜欢 的 平均 次 数 。 

为 了 提供 示例 , 我 将 做 一 个 满足 自己 虚 末 心 的 分 析 , 对 我 的 账户 emarcobonzanini 和 Packt 
出 版 社 的 账户 进行 比较 。 




















$ python twitter influence.py marcobonzanini PacktPub 
该 代码 生成 的 输出 如 下 所 示 。 


ee Stats marcobonzanini ----- 

282 followers 

1411136 users reached by 1-degree connections 

Average number of followers for marcobonzanini's followers: 5004.03 
Favorited 268 times (1.47 per tweet, 0.95 per user) 

Retweeted 912 times (5.01 per tweet, 3.23 per user) 

一 二 二 一 Stats PacktPub ----- 

10209 followers 

29961760 users reached by 1-degree connections 

Average number of followers for PacktPub's followers: 2934.84 
Favorited 3554 times (0.33 per tweet, 0.35 per user) 
Retweeted 6434 times (0.6 per tweet, 0.63 per user) 


正如 你 看 到 的 ， 粉 丝 的 数量 没有 可 比 性 ，Packt 出 版 社 的 粉丝 量 约 是 我 的 35 倍 。 这 个 分 析 结 
果 有 趣 的 部 分 在 后 面 : 当 分 析 转 发 和 喜欢 的 平均 数 时 ， 粉 丝 对 我 所 分 享 内 容 的 参与 度 明 显 高 于 
PacktPub。 这 能 充分 表明 我 是 一 个 影响 者 ， 而 PacktPub 不 是 吗 ? 显然 不 能 。 我们 可 以 发 现 , 我 的 
推 文大 多 聚焦 于 特定 主题 (Python 和 数据 科学 )， 因 此 我 的 粉丝 已 经 对 我 发 布 的 主题 感 兴趣 。 而 
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Packt 出 版 社 发 布 的 内 容 非 常 多 样 , 包含 很 多 技术 。 这 种 多 样 性 也 反映 在 PacktPub 的 粉丝 分 布 上 ， 
其 粉丝 包括 开发 者 、 设 计 师 、 科 学 家 、 系 统管 理 员 等 。 因 此 ，PacktPub 的 每 条 推 文 只 会 被 一 小 部 








3.2 ”挖掘 粉丝 


在 现实 世界 中 , 社交 群体 是 指 具备 共同 条 件 的 一 组 人 。 这 个 广泛 的 定义 包括 在 同一 地 理 位 置 
的 人 、 拥 有 相同 政治 或 宗教 信仰 的 人 、 拥 有 相同 兴趣 〈 如 阅读 ) 的 人 ， 等 等 。 


社交 群体 的 概念 也 是 社会 媒体 平台 的 核心 。 虚 拟 环境 中 群体 的 界限 比 现 实 世 界 中 更 模糊 ， 因 
为 地 理 位 置 不 再 是 决定 性 因素 。 就 像 在 面对面 场景 中 一 样 , 当 有 共同 兴趣 或 条 件 的 人 开始 交互 时 ， 
社会 媒体 平台 上 自然 就 形成 了 社 群 。 


可 以 根据 成 员 是 否 意 识 到 自己 是 某 社 群 的 成 员 来 区 别 不 同类 型 的 社 群 。 在 显 式 社 群 中 , 成 员 
和 非 成 员 都 非常 清楚 他 们 是 否 属于 该 社 群 ,并 知道 社 群 中 的 其 他 成 员 都 是 谁 。 社 群 成 员 间 的 互动 
会 比 与 非 成 员 的 互动 更 加 频繁 。 


男 一 方面 , 隐 式 社 群 的 存在 并 没有 得 到 明确 公认 。 这 种 社 群 的 成 员 可 能 具有 相同 的 兴趣 , 但 
并 没有 明显 和 强烈 的 联系 。 


本 节 将 分 析 用 户 数据 ， 并 对 一 组 用 户 资料 进行 分 类 ， 从 而 分 析出 用 户 的 共同 兴趣 和 条 件 。 


聚 类 ( 即 聚 类 分 析 ) 是 一 种 机 需 学 习 技 术 ， 用 于 对 数据 项 分 组 ， 同 一 组 ( 即 簇 ) 内 对 象 间 的 
相似 度 会 高 于 不 同 组 间 对 象 的 相似 度 。 聚 类 属于 无 监督 学 习 技术 ,也 就 是 说 , 我 们 处 理 的 对 象 并 
没有 被 打 过 标签 。 无 监督 学 习 的 目的 是 发 现 数据 的 隐 含 结构 。 


常见 的 一 个 聚 类 应 用 场景 是 市 场 研究 。 例 如 ， 按 照相 似 的 行为 /兴趣 对 一 群 客户 进行 分 组 ， 
从 而 对 他 们 进行 不 同 的 产品 推广 或 者 营销 推广 。 社 会 网 络 分 析 是 聚 类 可 以 发 挥 重 大 作用 的 另 一 个 
领域 ， 因 为 聚 类 可 用 于 识别 一 大 群 人 的 社 群 结构 。 


聚 类 并 不 是 一 种 具体 的 算法 ,而 是 可 以 用 不 同 算法 实现 的 一 个 任务 。 我 们 的 分 析 选 择 的 算法 
是 k-means, 它 是 聚 类 最 常用 的 方法 之 一 。k-means 是 一 个 方便 的 选项 , 因为 它 易 于 理解 和 实现 ， 
而 且 与 其 他 算法 比较 ， 具 有 更 高 的 计算 效率 。 

k-means 需要 两 个 参数 : n 维 空间 中 的 大 量 输入 向 量 ， 它 表示 我 们 想 要 聚 类 的 对 象 ; 我 们 期 
望 将 数据 分 成 的 簇 的 数量 KK。 因 为 使 用 的 是 无 监督 学 习 ， 所 以 我 们 不 需要 拥有 数据 的 正确 类 别 标 
签 。 具 体 来 说 ,我 们 其 至 不 知道 徐 的 正确 (或 理想 的 ) 数量 。 这 个 信息 在 聚 类 分 析 中 非常 重要 ， 
但 现在 并 不 需要 太 过 担心 这 个 问题 。 


上 一 段 中 定义 了 我 们 希望 诊 类 为 n 维 空间 中 向 量 的 对 象 。 简单 来 说 , 这 意味 着 每 一 份 用 户 资 
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料 将 表示 为 由 个 数值 元 素 ( 即 特征 ) 构成 的 一 个 向 量 。 


定义 这 些 特征 的 方法 基于 用 户 的 描述 , 即 用 户 提 供 
本 摘 述 转换 为 特征 向 量 的 过 程 称 为 向 量化 。scikit-learn 





的 实现 。scikit-learn 是 一 个 Python 的 机 器 学 习 工 具 ， 我 们 在 第 1 章 中 介 





的 有 关 自 己 兴 趣 或 职位 的 文本 信息 。 将 文 
中 提供 了 k-means 算法 和 其 他 向 量化 工具 
绍 过 。 











问 量化 过 程 包括 将 用 户 描述 分 解 为 词 项 , 然后 为 每 个 词 项 分 配 特 定 的 权重 。 本 例 中 采用 的 权 
重 分 配方 案 是 常用 的 TF-IDF 方法 , 它 是 词 频 (term frequency，TEF ) 和 逆 文 档 频 率 (inverse document 











frequency，IDF ) 的 组 合 。 
， 表示 单词 在 文档 集合 中 的 稀缺 性 。 这 
量 了 单词 在 给 定 内 容 中 的 重要 程度 。 














TF-IDF 提供 了 


文档 集合 中 较 少 出 现 ,那么 它 可 能 对 这 篇 文档 而 言 上 





TF 是 一 个 局 部 统计 ， 表 示 单 词 出 现在 文档 中 的 频率 。 
这 些 统计 值 常 用 于 搜索 引 敬 和 不 同 的 文本 挖掘 应 用 中 ， 


而 IDF 是 一 个 全 





如 果 一 个 单词 在 一 篇 文档 中 频繁 出 现 ， 但 在 整个 
具有 较 强 的 代表 性 , 因此 应 该 赋予 较 高 的 权重 。 





在 这 个 应 用 中 , 我 们 将 用 户 oo 并 用 TF-IDF 统计 值 将 这 些 用 户 描述 表示 为 向 量 元 素 。 








获得 了 维 向 量 表示 后 ， 可 以 用 k-means 算法 计 

















算 这 些 向 量 的 相似 度 。 


以 下 脚本 用 到 了 scikit-learn， 有 具体 而 言 是 Tfidfvectorizer 和 KMeans 类 。 


# Chap02-03/twitter_cluster_ users.py 

import sys 

import json 

from argparse import ArgumentParser 

from collections import defaultdict 

from sklearn.feature extraction.text import TfidfVectorizer 
from sklearn.cluster import KMeans 


def get_parser(): 





parser = ArgumentParser ("Clustering of followers") 

parser.add_argument ('--filename') 

parser.add argument ('--k', type=int) 

parser.add_argument ('--min-df', type=int, default=2) 

parser.add argument ('--max-df', type=float, default=0.8) 

parser.add argument ('--max-features', type=int, default=None) 

parser.add argument ('--no-idf', dest='use_idf', default=True, 
action='store_ false') 

parser.add_argument ('--min-ngram', type=int, default=1) 

parser.add_argument ('--max-ngram', type=int, default=1) 

return parser 





if name., Ss MT 
parser = get_parser() 
args = parser.parse_args() 


if args.min ngram > args.max_ngram: 
print ("Error: incorrect value for --min-ngram 
be higher than --max-value 
args .max_ngram)) 
sys.exit (1) 


Ct} Gan 
({})".format (args.min_ngram, 
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with open(args.filename) as f: 
# 加 载 数据 
users = [] 
for line in f: 
profile = json.loads (line) 
users.append (profile['description']) 
# 创建 向 量化 器 
vectorizer = TfidfVectorizer (max_df=args.max_df, 
min df=args.min gf, 
max_features=args.max_features, 
stop_words='english', 
ngram_range=(args.min ngram, 
args.max_ngram), 
use_idf=args.use_idf) 
# 拟 合 数据 
X = vectorizer.fit_ transform(users) 
print ("Data dimensions: {}".format (X.shape)) 
# 执行 聚 类 
km = KMeans (n_clusters=args.k) 
km.fit (x) 
clusters = defaultdict (list) 
for i, label in enumerate (km.1Labels_) : 
clusters[label].appendq(users [i]) 
# 打印 这 个 给 的 前 10 个 用 户 描述 
for label, descriptions in clusters.items(): 
en inne Cluster {}'.format (label)) 
for desc in descriptions[:10]: 
print (desc) 


TfidfVectorizer 类 提供 了 一 些 选 项 来 配置 计算 向 量 的 方式 , 我 们 将 用 Argument Parser 
(Python 标准 库 的 一 部 分 ) 从 命令 行 获得 这 些 选项 。get_parser () 函数 定义 的 参数 如 下 所 示 。 


口 --filename: 我 们 想 要 分 析 的 JSONL 文件 名 的 路 径 

口 --k: 秘 的 数量 

口 --min-af: 一 个 特征 的 最 小 文档 频率 ( 默认 是 2 ) 

口 --max-df: 一 个 特征 的 最 大 文档 频率 ( 默认 是 0.8) 

口 --max-features: 这 是 特征 的 最 大 数量 ( 默认 是 None ) 

口 --no-idf; 该 标记 表示 我 们 是 否 希望 取消 IDF 权重 ， 只 使 用 TF ( 默认 使 用 IDF ) 
口 --min-ngram: 这 是 抽取 的 n-gram 的 最 小 边界 值 ( 默认 值 是 1 ) 

口 --max-ngram: 这 是 抽取 的 n-gram 的 最 大 边界 值 ( 默认 值 是 1 ) 


可 以 用 以 下 命令 运行 上 述 脚本 : 












































$ python twitter cluster users.py \ 
--filename users/marcobonzanini/followers.jsonl \ 
--k5\ 
--max-features 200 \ 
--max-ngram 3 
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必 备 参数 是 --filename 和 --k， 前 者 表示 我 们 要 分 析 的 文件 名 ,后 者 是 艇 的 数量 。 其 他 参 
数 都 是 可 选 的 ， 并 用 于 定义 Tfidfvectorizer 如 何 为 kMeans 创建 向 量 。 


通过 显 式 使 用 --max-features 或 者 用 --min-daf 和 --max-df 来 指定 一 个 特征 的 期 望 文档 
频率 范围 ,我 们 可 以 限制 TfidfVectorizer 抽取 的 特征 数量 。 最 小 文档 频率 默认 是 2， 这 意味 
着 , 如 果 特 征 只 在 少 于 2 篇 文档 中 出 现 , 那么 就 会 被 忽略 。 另 一 方面 , 最 大 文档 频率 默认 是 0. 8， 
这 意味 着 ， 如果 特征 在 80% 以 上 的 文档 中 出 现 , 那么 就 会 被 忽略 。 根 据 数据 集 的 大 小 ,我 们 可 以 
或 多 或 少 保守 地 确定 这 些 值 。 基 于 文档 频率 排除 这 些 特 征 的 目的 是 避免 计算 不 具 代表 性 的 特征 。 
此 外 ,， 用 --max-features 限制 特征 的 数量 可 以 加 速 计算 ， 因为 输入 更 小 。 指 定 这 个 选项 后 ， 
就 可 以 确定 最 频繁 的 特征 ( 取决 于 它们 的 文档 频率 )。 


与 其 他 参数 不 同 ，--no-idf 选项 不 用 于 指定 特定 的 值 ， 而 是 取消 IDF 的 计算 ( 这 意味 着 只 
用 TF 计算 特征 权重 )。 我 们 需要 将 一 个 变量 名 为 目的 地 的 变量 ( dest=use_igdf ) 和 给 出 
store_false 参数 ( 当 该 参数 未 给 出 时 ,其 默认 值 时 True ) 时 需要 执行 的 动作 传递 给 参数 解析 
器 ， 这 样 就 可 以 指定 --no-iaf 参数 的 行为 。IDF 通常 用 于 缩小 在 文档 集合 中 经 常 出 现 、 因 而 不 
具有 任何 特定 辨别 力 的 单词 的 权重 。 虽 然 在 很 多 应 用 中 , 在 权重 函数 中 采用 IDF 是 一 个 绝 佳 选择 ， 
但 在 探索 性 数据 分 析 的 步骤 中 ,观察 其 实际 效果 仍然 非常 重要 。 因 此 ,关闭 该 功能 的 选项 只 是 我 
们 工具 箱 中 的 一 个 额外 工具 。 


最 后 两 个 参数 允许 我 们 采用 n-gram 作为 特征 ， 而 不 是 单个 单词 。 通 常 来 说 ， 一 个 n-gram 是 
n 项 的 连续 序列 。 在 我 们 的 应 用 中 , 我 们 将 一 段 文本 切 分 为 单词 序列 。 单 个 单词 称 为 unigram( n=1 
的 n-gram )。 其 他 常用 的 n-gram 还 有 bigram (n=2 ) 和 trigram (n=3 )， 是 否 采用 更 大 的 gram 取 
决 于 实际 的 应 用 。 例 如 ， 句 子 the quick brown fox jumped over the lazy dog 的 bigram 结果 为 : the 
quick 、quick brown 、brown fox 、fox jumped， 等 等 。 


使 用 n-gram 而 不 是 unigram 的 好 处 是 能 捕 提 到 短语 。 思 考 以 下 两 个 句子 : 






























































































































































口 He’s a scientist, but he doesn’t like data 
口 He works as a data Scientist 


如 果 只 用 unigram， 那 么 在 这 两 个 句子 中 都 会 捕获 到 data 和 scientist 项 ， 尽 管 这 两 项 在 两 个 
句子 中 的 使 用 方式 完全 不 同 ， 但 如 果 使 用 bigram， 则 可 以 捕获 到 短语 data scientist， 它 的 含义 与 
两 个 单独 的 单词 不 同 。 默 认 情 况 下 ，n-gram 的 下 界 和 上 界 的 值 设置 为 1。 也 就 是 说 ， 如 果 没 有 特 
别 指定 ， 我 们 使 用 的 是 unigram。 


我 们 来 总 结 一 下 如 何 配置 rfidafVectorizer。 首先 , 它 使 用 stop_words 参数 定义 从 英语 
词汇 表 中 捕获 的 停 用 词 。 它 是 一 个 常见 英语 单词 ( 如 the 和 and ) 列表 ， 这 些 单词 本 身 并 不 带 有 
村 定 意 义 ， 几 乎 用 于 每 段 文 本 中 。 在 常见 英语 中 , 停 用 词 可 能 已 经 被 max_df 选项 过 滤 掉 了 ( 因 
为 它们 的 文档 频率 接近 100% ), Twitter 用 户 并 不 经 常 使 用 流畅 的 常见 英语 , 而 是 用 一 组 关键 词 来 
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表示 他 们 的 兴趣 ,以 克服 推 文 的 字符 限制 。Tfidfvectorizer 也 允许 使 用 stop_words 属性 传 
人 我 们 自 定 义 的 停 用 词 列 表 。 


运行 前 面 的 代码 会 输出 有 趣 的 结果 。 为 简洁 起 见 ， 图 3-2 展示 了 部 分 输出 结果 。 

















一 < 





Es Cluster 0 

PhD student #FutureofNews, #TextMining, Topic Detection & Tracking, 
summarization, Information Retrieval, mostly with Breaking News 
Data 

PhD candidate - How and what can search engines learn from their 
users? 

PhD candidate. Information Retrieval. Data Mining. Open Source. 
PhD candidate | Semantic Search in eDiscovery | Information 
Retrieval, Text Mining 

类 Cluster 1 

Co-fundador de Viz Analytics. Diplomado en Ingenieria Informatica 
de Gestion y con un Master Universitario en Inteligencia 
Artificial. 


Lenguas, comunicacion y nuevos medios. No tuitear en caso de 
incendio. 


Lic. en Administracion mencion informatica, promotor del software 
libre y las oportunidades que brinda. 

当 :一 一 一 一 一 = 一 Cluster 2 

I am part time web-developer and I love python 

boiling down to Python and Infosec nowadays. Any advices? 

Python Padawan, Django noob . 

Sherlock of #Data, Love #machinelearning #python 

其 Cluster 3 

Data Scientist 

Data scientist in the making 

Data scientist, interested in text analysis, social networks, 
artificial and natural intelligence, data, complexity, 1illusions... 
Data Scientist 

Wanna be a Data Scientist: using data for good 


图 3-2 ”部 分 输出 结果 
为 简洁 起 见 ， 对 输出 结果 做 了 截断 ， 突 出 显示 了 k-means 算法 的 一 些 有 趣 行为 。 


粉丝 的 第 一 个 簇 是 一 群 学 者 和 博士 生 , 他 们 的 主要 研究 方向 是 文本 分 析 和 信息 检索 。 可 以 看 
到 ， 两 份 资 料 描述 中 的 PhD candidate 和 Information Retrieval 短语 是 非常 明显 的 匹配 
用 户 相似 度 的 证 据 。 


第 二 个 簇 由 西班牙 语 用 户 组 成 。k-means 和 Tfidfvectorizer 并 没有 关于 多 语言 的 知识 。 
与 语言 相关 的 唯一 方面 是 使 用 常见 英语 单词 的 停 用 词 。k-means 能 够 智能 到 识别 语言 ， 并 用 这 个 
信息 将 用 户 分 组 吗 ? 注意 ， 我 们 创建 的 向 量 基 于 词 袋 ( 更 准确 说 是 n-gram 词 袋 ) 表示 ， 因 此 相 
似 度 只 是 基于 单词 和 n-gram 的 简单 重合 。 即 便 不 懂 西 班 牙 语 ， 我 们 仍然 能 发 现 几 个 在 不 同 资料 
中 经 常 出 现 的 单词 (如 en、y 和 ae )。 这 些 单词 可 能 在 整个 粉丝 (大 多 是 英语 使 用 者 ) 集合 中 非 
常 稀少 , 因此 ， 甚 重要 程度 体现 在 很 高 的 IDF 值 。 虽然 它们 也 碰巧 是 西班牙 语 的 停 用 词 , 但 因为 
这 里 使 用 的 停 用 词 列表 是 针对 英语 的 , 所 以 它们 仍然 保留 为 向 量 特征 。 除 了 语言 特性 , 这些 资料 
之 间 的 连接 可 能 非常 松散 。 第 一 个 和 第 三 个 资料 提 到 了 一 些 与 计算 机 科学 相关 的 项 。 而 第 二 个 资 
料 提 到 的 是 “语言 、 沟 通 和 新 媒体 。 如 果 发 生火 灾 ， 不 要 发 推 文 "。 与 其 他 资料 的 连接 就 非常 模 
糊 了 ， 不 过 这 仍然 是 一 个 有 趣 的 结 
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与 第 一 个 艇 相似 ,第 三 个 和 第 四 个 徐 可 以 较 好 地 自我 说 明 且 非常 一 致 : 复 3 主要 由 Python 开 
发 者 组 成 , 簇 4 由 数据 科学 家 组 成 。 


因为 k-means 的 初始 值 是 任意 的 , 所 以 即使 每 次 用 相同 参数 运行 同样 的 程序 也 并 不 能 确保 可 
以 得 到 同样 的 结果 。 如 果 感 兴趣 , 我 建议 你 尝试 用 不 同 的 参数 值 ( 如 使 用 更 多 或 更 少 的 特征 , 用 
unigram 和 更 大 的 n-gram 对 比 , 用 较 小 范围 的 文档 频率 和 更 大 范围 的 文档 频率 对 比 等 ) 运 行程 序 ， 
并 观察 这 些 参数 如 何 影响 算法 的 行为 。 

在 讨论 k-means 之 初 , 我 们 介绍 过 簇 的 数量 KK 和 数据 是 该 算法 的 主要 输入 。 找到 给 定数 据 集 
的 最 佳 K 值 仍然 是 一 个 学 术 研 究 问 题 , 而 且 与 如 何 执 行 实 际 的 聚 类 不 同 。 当 然 , 也 有 很 多 其 他 方 
法 可 以 实现 上 述 目 的 (参见 维基 百科 词 条 “Determining the number of clusters in a data set”)。 

最 简单 的 方法 是 拇指 法 则 ， 其 做 法 是 将 KK 值 设置 为 w2 的 平方 根 ， 其 中 是 数据 集中 对 象 的 
个 数 。 其 他 方法 会 涉及 簇 内 的 一 致 性 度量 ， 如 肘 部 法 则 或 Silhouette 方法 。 






















































































3.3 ”挖掘 对 话 

前 面 主要 介绍 了 用 户 资料 ， 以 及 他 们 如 何 通过 粉丝 /好 友 关 系 显 式 连 接 。 本 节 将 分 析 一 种 不 
同 的 交互 类 型 一 一 对 话 。 在 Twitter 中 ， 用 户 可 以 发 布 一 条 推 文 来 对 一 段 内 容 进行 回复 。 当 两 位 
及 更 多 用 户 参 与 这 一 过 程 时 ， 一 个 对 话 就 展开 了 。 

图 3-3 展示 了 一 个 对 话 ， 表 示 为 一 个 网 络 。 网 络 中 的 每 个 节点 都 是 一 条 推 文 〈 由 其 ID 唯 
标识 )， 而 每 条 边 表示 一 个 回复 关系 。 












































图 3-3 ”表示 为 网 络 的 对 话 示例 








这 种 关系 有 明确 的 方向 ， 因 为 它 是 单 向 的 ( 父子 关系 )。 例如， 如 果 推 文 2 是 对 推 文 1 的 回 
复 , 那么 推 文 1 就 不 会 是 对 推 文 2 的 回复 。 这 种 关系 的 排序 总 是 唯一 的 ， 也 就 是 说 ， 给 定 推 文 只 
能 是 对 一 条 推 文 的 回复 〈 但 多 条 推 文 可 对 同一 条 推 文 进 行 回 复 ， 因 此 这 是 一 对 多 关系 )。 此 外 ， 
不 允许 出 现 循环 ( 例如， 如 果 一 个 关系 序列 是 1 到 2、2 到 3,， 那么 3 到 1 是 不 可 能 发 生 的 )。 因 
此 ， 用 于 表示 这 种 关系 的 图 是 有 向 无 环 图 。 更 准确 地 说 ， 这 里 表示 的 图 的 类 型 通常 称 作 有 向 树 。 
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虽然 图 3-3 没有 明确 描述 ， 但 我 们 应 该 注意 到 回复 关系 是 受 时 间 限 制 的 ， 即 只 能 回复 已 经 发 
布 的 推 文 。 


通过 用 图 表示 推 文 和 回复 ， 可 以 用 图 的 性 质 和 算法 来 挖掘 对 话 。 


例如 ,一 个 节点 的 度 是 图 中 该 节点 的 子 节 点 数量 。 从 对 话 的 角度 看 ， 节 点 的 度 对 应 的 是 该 节 
点 收 到 的 回复 的 数量 。 在 图 3-3 的 示例 中 ,有 两 个 节点 直接 与 节点 1 相连 ,因此 节点 1 的 度 是 2。 
节点 2、 节 点 3 和 节点 5 都 只 与 一 个 节点 与 其 相连 ， 因 此 它们 的 度 都 为 1。 最 后 ,节点 4 和 节点 6 
没有 与 之 相连 的 节点 ， 因 此 度 为 0。 ER 表示 对 话 的 结束 。 男 一 方面 ， 对 
话 的 起 点 ， 即 节点 1 也 称 作 树 的 根 节点 。 


图 论 中 的 一 个 基本 概念 是 路 径 , 它 是 连接 节点 的 边 的 序列 。 给 定 一 个 推 文 序列 的 图 表示 ， 查 
找 一 条 路 径 等 于 跟随 一 个 对 话 。 一 个 非常 有 趣 的 问题 是 查找 最 大 长 度 的 路 径 ， 也 称 作 最 长 路 径 。 


为 了 将 这 些 图 的 概念 应 用 于 我 们 的 Twitter 数据 ， 可 以 使 用 第 1 章 中 介绍 过 的 NetworkX 库 ， 
它 提供 了 图 数据 结构 的 高 效 计算 ,以 及 一 个 非常 简单 的 接口 。 以 下 脚本 以 推 文 的 JSONL 文件 作 
为 输入 ， 然 后 生成 前 面 介 绍 过 的 一 个 有 向 图 。 


# Chap02-03/twitter_conversation.py 
import sys 




































































import json 
from operator import itemgetter 
import networkx as nx 


def usage(): 
print ("Usage:") 
print ("python {} <filename>".format (sys.argv[0])) 


生生 name == '_ main 
if len(sys.argv) != 2: 
usage() 
sys.exit (1) 
fname = sys.argv[1] 
with open(fname) as f: 
graph = nx.DiGraph() 
for line in f: 
tweet = json.loads (line) 
if 'id' in tweet: 
graph.adgd node (tweet['id'], 
tweet=tweet['text'], 
author=tweet['user']['screen name'], 
created_ at=tweet['created_at']) 
if tweet['in reply_to_status_id']: 
reply_to = tweet['in reply_to_status_id'] 
if tweet['in reply_to_ status_id'] in graph \ 
and tweet['user']['screen name'] != 
graph.node[reply_to]['author']: 
graph.adgd_ edge (tweet['in reply_to_ status_id'], 
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tweet['id']) 


# 打印 一 些 基 本 统计 值 

print (nx.info (graph)) 

# 找 出 回复 量 最 多 的 推广 

sorted_replied = sortedl(graph.degree iter(), 


key=itemgetter(1), 
reverse=True) 


most_replied_ id, replies = sorted replied[0] 
print ("Most replied tweet ({} replies):".format (replies)) 
print (graph.node[most_replied_ iqd]) 
# 找 出 最 长 的 对 话 
print ("Longest discussion:") 
longest_path = nx.dag_longest_path (graph) 
for tweet_id in longest_path: 
node = graph.node[tweet_id] 


EE( 


{} (by {} at {})".format (node['tweet'], 
node['author'], 
node['created_at'])) 


可 以 用 以 下 命令 运行 上 述 脚 本 。 


$ python twitter conversation.py <filename> 


在 这 段 代码 中 ， 


我 们 用 nx 别名 导入 NetworkX, 第 1 章 中 介绍 过 这 一 点 。 首 先 , 初始 化 一 个 





用 nx.DiGraph ; 的 有 向 图 。 输 入 的 JSONL 文件 的 每 一 行 表示 一 条 推 文 ， 我 们 将 对 这 


个 文件 进行 迭代 ， 








将 每 条 推 文 作为 一 个 节点 加 入 图 中 。agq_noge( ) 函数 的 作用 就 是 加 入 节点 ， 











ID， 此 外 ， 可 选 关键 词 参数 的 个 数 用 于 提供 节点 的 额外 属性 。 在 示例 中 ， 
我 们 将 使 用 作者 的 昵称 、 推 文 的 完整 文本 和 推 文 的 创建 时 间 。 


创建 好 节点 后 
































， 我 们 将 查看 该 推 文 是 否 为 男 一 条 推 文 的 回复 。 如 果 是 , 我 们 可 能 想 在 两 个 


点 则 添加 一 条 边 。 在 添加 边 之 前 ， 需要 先 确认 被 回复 的 节点 已 存在 于 图 中 , 这 这 样 可 以 各 免 图 中 出 























现 对 不 0 ( 如 在 我 们 用 流 API 采集 数据 前 发 布 的 推 文 )。 如 果 尝 试 连接 的 


节点 不 在 图 中 ，ada 
信息 /Go 还 需要 确认 推 











_edge () 函数 会 将 其 添加 到 图 中 , 但 除了 其 ID , 我 们 不 知道 其 他 属性 的 任何 
0 与 回复 的 作者 是 否 为 不 同 的 人 。 这 是 因为 Twitter UI 自动 将 对 话 中 











的 推 文 分 组 ， 但 一 些 用 户 是 对 一 个 实时 事件 进行 评论 ， 或 者 通过 对 自己 的 推 文 回 复 一 个 超过 140 

















字符 的 评论 来 轻松 创建 一 个 多 推 文 线程 。 这 虽然 是 个 不 错 的 功能 , 但 不 是 对 话 ( 事实 上 正 相 反 )， 
因此 需要 忽略 这 些 线程 。 如 果 想 发 现 自 言 自 语 ， 可 以 修改 代码 来 实现 相反 的 功能 : 只 在 推 文 的 作 
者 和 回复 的 作者 相同 时 添加 边 。 




















构建 好 图 后 ， 先 打印 一 些 由 nx.info() 函数 提供 的 基本 统计 值 。 然 后 识别 具有 最 多 回复 量 


的 推 文 ( 即 拥有 最 大 度 的 节点 ) 以 及 最 长 的 对 话 ( 即 最 长 路 径 )。 
由 于 degree_iter () 隐 数 返回 的 是 (node，,，degree) 元 组 序列 的 迭代 器 , 我 们 将 用 itemgetter () 


























函数 按照 度 的 逆序 进行 排序 。 排 序 后 的 第 一 项 就 是 拥有 回复 数量 最 多 的 推 文 。 
查找 最 长 对 话 的 解决 方案 在 aag_longest_path () 函数 中 实现 ， 该 函数 返回 节点 ID 列表 。 
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要 重建 该 对 话 ， 只 需 迭 代 这 些 ID ， 并 打印 出 相应 的 数据 。 


以 上 代码 是 用 第 2 章 中 创建 的 stream RWC2015 ”RWCFinal Rugbyjsonl 文件 运行 的 , 生成 
的 输出 结果 如 下 所 示 ( 为 简洁 起 见 ， 省 略 了 最 长 对 话 的 输出 )。 











Name : 

Type: DiGraph 

Number of nodes: 198004 

Number of edges: 1440 

Average in degree: 0.0073 

Average out degree: 0.0073 

Most replied tweet (15 replies): 

{'author': 'AllBlacks', 'tweet': 'Get ready for live scoring here, starting 
shortly. You ready #AllBlacks fans? #NZLVAUS #TeamAllBlacks #RWC2015', 
:created at': 'Sat Oct 31 15:49:22 +0000 2015'} 

Longest discussion: 

#4 流 3 


正如 你 看 到 的 , 推 文 的 数量 远大 于 边 的 数量 。 这 是 因为 很 多 推 文 并 未 与 其 他 推 文 连接 ,也 就 
是 说 ， 只 有 一 小 部 分 推 文 是 对 其 他 推 文 的 回复 。 当 然 ， 这 个 结果 取决 于 不 同 的 数据 ， 以 及 是 否 考 
虑 包含 自我 回复 和 对 以 往 推 文 〈 即 不 在 我 们 数据 集中 的 推 文 ) 的 回复 。 
















































































3.4 在 地 图 上 绘制 推 文 


本 闻 将 介绍 如 何 用 地 图 可 视 化 推 文 。 数 据 可 视 化 是 提供 数据 直观 概览 的 一 种 良好 方式 ,为 你 
揭示 了 数据 集 的 特定 特征 。 

在 一 小 部 分 推 文中 , 我 们 可 以 发 现 用 户 设备 的 地 理 位 置 坐 标 。 虽然 很 多 用 户 在 设备 上 禁用 了 
该 功能 ， 但 这 个 数据 的 挖掘 对 于 理解 推 文 的 地 理 分 布 非常 有 用 。 

本 贡 将 介绍 GeoJSON ， 它 是 用 于 地 理 数据 结构 的 一 种 常见 数据 格式 ， 常 用 于 构建 推 文 的 交 
互 式 地 图 。 















































3.4.1 将 推 文 转换 为 GeoJSON 


GeoJSON 是 基于 JSON 的 格式 ,用 于 对 地 理 数 据 结构 进行 编码 。GeoJSON 对 象 可 以 表示 几 

何 结构 、 特 征 或 特征 的 集合 。 几 何 结构 只 包含 有 关 形 状 的 信息 ， 如 点 、 线 、 多 边 形 和 更 复杂 的 形 

状 。 特 征 扩展 了 几何 结构 的 概念 ， 包 含 几何 结构 以 及 一 些 额 外 的 ( 自 定义 ) 属性 。 最 后 ， 特 征 的 
合 就 是 特征 的 列表 。 


GeoJSON 数据 结构 总 是 JSON 对 象 。 以 下 片段 是 一 个 GeoJSON 的 示例 ， 表 示 两 个 不 同 点 的 
集合 ， 每 个 点 表示 一 个 特定 的 城市 。 
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{ 
"type": "FeatureCollection", 
"features": [ 
{ 
"type": "Feature", 
"geometry": { 
"type": "Point", 
"coordinates": [ 
二 人 了 
DLs 
] 
} 
"properties": { 
"name": "London" 
lL 
} 
{ 
"type": "Feature", 
"geometry": { 
TYE TPOLnt 
"coordinates": [ 
-74, 
40.71 





] 

} 

"properties": { 
"name": "New York City" 

} 
} 
] 
} 


以 上 这 个 GeoJSON 对 象 的 第 一 个 键 表示 对 象 的 type。 这 个 字段 是 必需 的 , 日 其 值 必须 是 以 
下 属性 之 一 o 


口 Point : 用 于 表示 一 个 位 置 

口 MultiPoint: 用 于 表示 多 个 位 置 
口 LineString: 表示 串联 两 个 或 多 个 位 置 的 连接 线 

口 MultiLinestring: 相当 于 多 条 连接 线 

口 Polygon: 表示 封闭 的 连接 线 ， 即 第 一 个 和 最 后 一 个 位 置 相同 

口 GeometryCollection: 表示 不 同 几何 形状 的 列表 

口 Feature: 表示 前 面 的 某 项 (不 包括 GeometryCollection ) 以 及 一 些 额 外 的 自 定 义 属性 
口 FeatureCollection: 表示 特征 列表 


前 面 示例 中 的 type 具有 FeatureCollection 值 ，features 字段 将 是 一 个 对 象 列 表 ( 每 
一 个 元 素 都 是 一 个 Feature )。 


示例 中 展示 的 两 个 特征 都 是 简单 的 点 ， 因 此 ， 这 两 个 点 的 coordinates 字段 是 两 个 元 素 的 
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数组 : 经 度 和 纬度 。 还 可 以 包含 第 三 个 元 素 : 海拔 (如果 省 略 ， 则 表示 海拔 为 0 )。 


清楚 需要 的 结构 后 ， 就 可 以 从 推 文 数据 集中 抽取 出 地 理 信息 。 以 下 的 脚本 twitter_make_ 
geojson.py 读 取 了 JSON Lines 格式 的 推 文 数据 集 ， 并 生成 了 一 个 GeoJSON 文件 ， 该 文件 包含 
所 有 的 推 文 和 相关 的 地 理 信息 。 











# Chap02-03/twitter_ make_geojson.py 
import json 
from argparse import ArgumentParser 


def get_parser(): 
parser = ArgumentParser() 
parser.add_argument (`--tweets.) 
parser.add_argument (`--geojson.) 
return parser 


下 name 三 三 二 





parser = get_parser() 
args = parser.parse_args() 
# 读 入 推 文集 合并 构建 地 理 数据 结构 
with openl(args.tweets, 'r') as f: 
geo_data = { 
"type": "FeatureCollection", 
"features": [] 
} 
for line in f: 
tweet = json.loads (line) 
ee 
if tweet['coordinates']: 
geo_json feature = { 
"type": "Feature", 
"geometry": { 
"type": "Point", 
"coordinates": tweet['coordinates']['coordinates'] 
je 
"properties": { 
"text": tweet['text'], 
"created_at": tweet['created at'] 


} 
geo_datal'features'] .append(geo_json feature) 
except KeyError: 
# 如 果 json 文档 不 是 推 文 ， 则 跳 过 
continue 
# 保存 地 理 数据 
with open(largs.geojson, 'w') as fout: 
fout.write(json.dumps (geo_data, indent=4)) 


以 上 脚本 用 ArgumentParser 读 取 命令 行 参数 。 可 以 用 以 下 命令 运行 以 上 脚本 。 
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$ Python twitter make geojson.py \ 
--tweets stream RWC2015 RWCFinal Rugby.jsonl \ 
--geojson rwc2015 final.geo.json 
在 这 个 示例 中 , 我 们 将 用 --tweets 参数 读 取 在 第 2 章 中 获取 的 stream RWC2015 RWCFinal_ 
Rugby.jsonl 文件 ， 输 出 结果 将 传递 给 --geojson 参数 并 存储 在 rwc2015_final.geo.json 文件 中 。 


地 理 数据 结构 是 Featurecollection, 在 代码 中 由 geo_qdata 字典 表示 。 当 循环 推 文 数据 
集 文件 时 , 该 代码 将 导入 每 条 推 文 ， 并 将 其 作为 一 个 特征 附加 到 特征 集合 中 。 对 于 每 个 特征 ,我 
们 将 保存 几何 信息 和 相关 的 坐标 ,以 及 一 些 额 外 的 属性 ， 如 推 文 的 文本 和 创建 时 间 。 如 果 数 据 集 
中 的 任何 JSON 文档 不 是 一 条 合法 的 推 文 (如 Twitter API 返 回 的 错误 信息 )， 由 于 不 合法 的 推 文 
信息 不 包含 期 待 的 属性 ， 程 序 中 的 try /except 会 捕获 该 错误 并 触发 KeyError。 


代码 的 最 后 一 部 分 将 地 理 信息 保存 到 给 定 的 JSON 文件 ， 用 于 后 续 的 自 定义 地 图 。 













































































3.4.2 用 Folium 轻松 绘制 地 图 
本 节 将 介绍 Folium ， 它 是 一 个 Python 库 ， 可 以 帮助 我 们 轻松 生成 交互 式 地 图 。 


Folium 连接 了 Python 数据 处 理 能 力 和 JavaScript UI。 上 有 具体 来 说 ，Folium 允许 Python 开发 者 
将 GeoJSON 和 TopoJSON 数据 与 Leaflet 库 整 合 ，Leaflet 是 一 个 特征 非常 丰富 、 用 于 构建 交互 式 
地 图 的 前 端 库 。 


使 用 Folium 这 样 的 库 的 好 处 是 ， 它 可 以 处 理 Python 数据 结构 与 JavaScript、HTML 和 CSS 
组 件 的 无 颖 转换 。Python 开发 者 可 以 不 具备 任何 前 端 知识 , 只 需 通 过 这 个 库 将 结果 输出 为 HTML 
文件 (或 者 直接 通过 Jupyter Notebook 展示 )。 


可 以 用 pip 在 虚拟 环境 中 安装 这 个 库 ， 如 下 所 示 。 
























































$ pip install folium 


本 节 示 例 使 用 的 Folium 库 是 0.2 版 本 的 ， 使 用 时 需要 仔细 阅读 文档 ， 因 为 作为 
一 个 新 的 项 目 ，Folium 的 接口 可 能 会 有 一 些 重大 改变 。 


以 下 示例 展示 了 以 欧洲 为 中 心 的 一 个 简单 地 图 , 该 地 图 有 两 个 标记 , 一 个 在 伦敦 , 一 个 在 巴黎 。 


# Chap02-03/twitter_map_example.py 
from argparse import ArgumentParser 
import folium 


def get_parser(): 
parser = ArgumentpParser () 
parser.add_ argument ('--map') 
return parser 
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def make_map (map_file): 
# 自 定义 地 图 
sample_ map = folium.Map(location=[50, 5], 
ZO00Mm -Start=5) 

# 标记 伦敦 

london marker = folium.Marker ([51.5, -0.12], 
popup='London') 

london_ marker.add_ tol(sample_map) 

# 标记 巴黎 

paris_marker = folium.Marker([48.85, 2.35], 
popup='Paris') 

paris_marker.add_ to(sample map) 

# 保存 到 HTML 文件 


sample_map.save (map_file) 


if name == '_ main 
parser = get_parser() 
args = parser.parse_args() 





make_map (args .map) 


以 上 代码 用 ArgumentParser 解析 命令 行 参数 并 选择 输出 文件 。 可 以 用 以 下 命令 运行 上 述 
代码 。 


$ python twitter map example.py --map example map.html 


执行 代码 后 ，example_map.html 文件 会 包含 输出 ， 该 输出 结果 可 以 在 浏览 器 中 进行 可 视 化 。 
图 3-4 展示 了 该 代码 的 输出 。 





, 


Nesp 





图 3-4 用 Folium 构建 的 示例 地 图 
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这 段 代码 的 核心 逻辑 是 由 make_map () 函数 实现 的 。 我 们 将 先 创建 一 个 folium.Map 对 象 ， 
它 在 特定 位 置 ( 即 [latitudqe，1longitude] 的 数组 ) 坐标 的 中 心 ， 并 带 有 特定 的 缩放 比例 。 
zoom_start 属性 是 一 个 整数 ， 较 小 的 数 表 示 缩 小 , 这 样 可 以 查看 完整 图 片 ， 而 较 大 的 数值 表示 
放大 。 

生成 地 图 后 , 可 以 附加 一 些 自 定义 的 标记 。 示例 代码 展示 了 如 何在 特定 位 置 创建 气球 形状 的 
标记 。 在 图 3-4 中 ,巴黎 的 标记 被 点 击 并 展示 了 弹出 信息 。 


了 解 如 何 使 用 Folium 后 ， 可 以 将 其 应 用 于 我 们 的 推 文 数据 集 。 以 下 示例 展示 了 如 何 导入 
GeoJSON 文件 中 的 标记 列表 。 









































# Chap02-03/twitter_map_basic.py 
from argparse import ArgumentParser 
import folium 


def get_parser(): 
parser = ArgumentpParser () 
parser.add_argument ('--geojson') 
parser.add_ argument ('--map') 
return parser 


def make map (geojson file, map_file): 
tweet_map = folium.Map (location=[50, 5], 
Zoom_start=5) 
geojson_ layer = folium.GeoJson(openl(geojson file), 
name='geojson') 
geojson_ layer.adqd_ to (tweet_map) 
tweet_map.save (map_file) 


if name, == '__ main 
parser = get_parser() 
args = parser.parse_args() 





make_ map (args .geojson, args.map) 
上 述 脚 本 也 用 到 了 ArgumentParser。 可 以 用 以 下 命令 运行 上 述 脚 本 。 


$ Python twitter map basic.py \ 
--geojson rwc2015_ final.geo.json \ 
--map rwc2015_final_ tweets.html 


--geojson 参数 用 于 传递 前 面 创建 的 文件 , 它 包含 GeoJSON 信息 。- -map 参数 用 于 提供 输 
出 文件 的 名 称 ， 这 样 我 们 就 可 以 观察 rwc2015_final tweets.html 的 HTML 页 面 ， 如 图 3-5 所 示 。 























这 段 代码 与 前 面 代 码 的 不 同 之 处 是 , 实现 make_map () 函数 的 方法 不 同 。 我 们 从 地 图 对 象 的 
初始 化 开始 。 我 们 不 会 一 个 一 个 地 添加 标记 ， 而 是 用 GeoJSON 文件 生成 一 个 层 ， 然 后 将 该 层 添 
加 到 地 图 上 面 。folium.GeoJson 对 象 负责 转换 JSON 数据 ， 这 样 就 可 以 很 轻松 地 生成 地 图 。 
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图 3-5 推 文 的 基本 地 图 


和 前 面 一 样 ， 图 3-5 中 的 地 图 以 欧洲 为 中 心 。 我 们 可 以 观察 到 ， 英国 的 标记 最 拥挤 ( 事件 发 
生 在 伦敦 ) 但 在 最 小 缩放 比例 下 ， 很 难 辨识 推 文 的 实际 地 理 位 置 分 布 。 


解决 这 个 问题 的 一 种 方式 是 放大 地 图 ， 因 为 这 个 地 图 是 交互 式 的 。Folium 和 Leaflet 还 提供 
了 另 一 种 方式 来 对 密集 区 域 的 标记 进行 分 组 。 


以 下 脚本 用 Markercluster 对 象 来 解决 以 上 问题 。 


# Chap02-03/Lwitter_map_clustered.py 
from argparse import ArgumentParser 
import folium 


def get_parser(): 
parser = ArgumentParser() 
parser.adgd argument ('--geojson') 
parser.add_argument ('--map') 
return parser 


def make map (geojson file, map_file): 
tweet_map = folium.Map (location=[50, 5], 
Zoom_start=5) 
marker_cluster = folium.MarkerCluster() .add tol(tweet_map) 


geojson_ layer = folium.GeoJson(open(geojson file), 

name='geojson') 
geojson_ layer.adqd_ to (marker_cluster) 
tweet_map.save (map_file) 
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if name., a" 
parser = get_parser() 
args = parser.parse_args() 





make_ map (args .geojson, args.map) 
上 述 脚 本 也 使 用 了 ArgumentParser， 可 以 用 以 下 命令 运行 上 述 脚本 。 


$ python twitter map clustered.py \ 
--geojson rwc2015_ final.geo.json \ 
--map rwc2015_ final tweets clustered.html 


以 上 参数 的 含义 和 前 一 段 脚 本 中 的 一 致 。 这 里 输出 结果 保存 在 rwc2015_final tweets_ 
clustered.html 文件 中 ， 可 以 用 浏览 器 打开 。 





3-6 展示 了 放大 后 突出 伦敦 地 区 的 部 分 地 图 。 可 以 看 到 ， 一些 标 记 被 组 合 在 一 起 作为 一 个 
簇 ， 其 表示 为 一 个 圆圈 对 象 ， 该 对 象 显示 了 其 中 包含 的 元 素数 量 。 
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图 3-6 带 有 类 标记 的 Folium 地 图 











当 鼠 标 移 到 某 个 复 上 时 , 地 图 将 高 亮 显 示 该 艇 表示 的 区 域 , 因此 用 户 可 以 在 不 放大 的 情况 下 
了 解 该 地 区 的 密度 。 在 图 3-6 中 ， 我 们 高 亮 显 示 了 伦敦 西南 部 (该 地 点 是 Twickenham 体育 馆 ， 
正好 是 事件 的 发 生地 ) 一 个 包含 65 项 的 艇 。 


还 可 以 组 合 使 用 Folium 的 不 同 特征 ,以 提供 更 丰富 的 用 户 体 验 。 例如 ， 可 以 结合 GeoJSON、 
徐 和 弹出 窗口 ， 从 而 允许 用 户 点 击 特 定 标 记 并 查看 对 应 的 推 文 。 
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用 类 和 弹出 窗口 创建 地 图 的 示例 如 下 所 示 。 


def make map (geojson file, map_file): 
tweet_map = folium.Map (location=[50, 5], 
Zoom_start=5) 
marker_cluster = folium.MarkerCluster() .adqd_ tol(tweet_map) 
geodata = json.load(open(geojson _ file)) 
for tweet in geodatal[l'features']: 


tweet['geometry']['coordinates'] .reverse!() 
marker = folium.Marker (tweet['geometry']['coordinates'], 
popup=tweet['properties']['text']) 


marker.adqd to(marker_cluster) 
tweet_map.save (map_file) 


前 面 定义 过 的 make_map () 函数 可 以 直接 替换 原来 程序 中 的 make_map () ， 因 为 接口 相同 。 


注意 ， 这 里 创建 的 Marker 对 象 需要 [latitude，1longituaqe] 形 式 的 坐标 ， 而 GeoJSON 
格式 使 用 的 是 [longitude，1latitudel。 因 此 ， 定 义 marker 前 需要 调换 坐标 数组 的 顺序 。 


图 3-7 展示 了 一 个 地 图 示例 ， 图 中 放大 并 高 亮 显示 了 体育 馆 。 有 一 个 标记 被 点 击 了 ， 因 此 弹 
出 窗口 中 显示 了 相应 的 推 文 。 
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Cup Final https://t.co/t6q2k7b3En 























图 3-7 前 面 的 地 图 (图 3-6 ) 放大 后 的 效果 ， 簇 可 以 作为 单个 标记 
当 使 用 大 量 标记 时 ， 需 要 考虑 可 能 会 在 UI 端 出 现 一 些 性 能 问题 。 具 体 来 说 ， 当 结合 标记 和 
弹出 窗口 时 ,加 载 几 百 项 后 ,地 图 的 导航 会 变 得 特别 慢 ， 而 且 浏 览 絮 会 拒绝 加 载 。 如 果 发 生 这 种 
情况 ， 建 议 尝试 较 小 的 数据 集 并 减少 地 图 中 的 特征 数量 。 
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3.5 小 结 


本 章 继续 探讨 了 Twitter 数据 的 挖掘 。 第 2 章 重 点 关注 文本 和 频率 ， 而 本 章 重点 介绍 了 如 何 
分 析 用 户 连 接 和 互动 。 我 们 介绍 了 如 何 抽取 显 式 连接 ( 即 粉丝 和 好 友 ) 的 信息 ， 以 及 如 何 比较 用 
户 的 影响 力 和 参与 度 。 

通过 讨论 用 户 社 区 , 我 们 介绍 了 利用 聚 类 算法 根据 用 户 资料 的 描述 对 用 户 分 组 的 无 监督 学 习 
方法 。 

我 们 对 有 关 实 时 事件 的 数据 应 用 了 网 络 分 析 技 术 , 目的 是 挖掘 推 文 流 中 的 对 话 , 理解 如 何 识 
别 拥有 最 多 回复 的 推 文 ， 以 及 如 何 确定 最 长 的 对 话 。 

最 后 展示 了 如 何 通过 将 推 文 绘 制 在 地 图 上 来 理解 推 文 的 地 理 分 布 。 我 们 用 Python 库 Folium 
展示 了 漂亮 地 可 视 化 地 理 数据 的 可 行 性 以 及 简便 性 。 


下 一 章 将 关注 Facebook， 它 可 能 是 当今 最 流行 的 社交 网 络 平台 。 
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在 介绍 社会 媒体 挖掘 的 书 中 ,你 可 能 会 期 待 有 关 Facebook 挖掘 的 介绍 。Facebook 于 2004 年 
推出 ， 最初 只 用 于 哈佛 的 学 生 圈 ， 如 今 已 是 一 个 市 值 10 多 亿美 元 的 公司 , 拥有 近 15 亿 月 活跃 用 
户 。Facebook 的 受 欢迎 程度 使 得 它 成 为 了 非常 有 趣 的 数据 挖掘 场所 。 

本 章 包含 如 下 主题 : 

口 创建 一 个 与 Facebook 平 台 交 互 的 应 用 

口 与 Facebook Graph API 交互 

口 挖掘 鉴 权 用 户 的 帖子 

口 挖掘 Facebook 的 页 面 ， 可 视 化 帖子 ， 并 计算 参与 度 
口 根据 一 组 帖子 构建 一 个 词 云 














4.1 Facebook Graph API 


Facebook Graph API 是 Facebook 平 台 的 核心 ， 也 是 允许 Facebook 与 第 三 方 资源 整合 的 主要 
组 件 。 顾 名 思 义 ， 它 提供 了 数据 的 图 结构 视图 ,表示 对 象 及 对 象 间 的 关系 。 不 同 的 平台 组 件 允 许 
开发 者 访问 Facebook 数据 ， 并 将 Facebook 的 功能 整合 到 第 三 方 应 用 中 。 

2014 年 , 该 API 的 2.0 版 本 发 布 , 使 数据 挖掘 的 机 会 发 生 了 很 大 转变 。 数 据 分 析 最 主要 的 关 
注 对 象 是 社交 图 谱 ， 即 用 户 间 的 关系 。 在 Graph API 2.0 之 后 ,希望 获取 这 种 连接 关系 的 应 用 必 
须 申 请 user_friengs 许可 ,但 API 只 会 返回 同样 使 用 该 应 用 的 好 友 列 表 。 

这 实际 上 改变 了 数据 分 析 中 曾经 的 “ 金 矿 ”。 本 节 将 介绍 如 何 用 Python 创建 Facebook 应 用 ， 
以 及 如 何 与 Facebook Graph API 进行 基本 的 交互 。 








4.1.1 注册 你 的 应 用 
Facebook API 的 接 入 需要 通过 一 个 注册 应 用 ,开发 者 必须 先 注册 他 们 的 应 用 ,才能 获得 Graph 
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API 的 接 入 凭证。 作为 Facebook 用 户 , 你 必须 注册 成 开发 者 , 然后 才能 创建 应 用 , 而且 你 的 账户 
必须 通过 电话 号 码 或 者 信用 卡 认 证 。 


在 Facebook 开发 者 网 站 注册 的 过 程 很 简单 :点击 My Apps 菜单 下 的 Add a New App 链接 。 
点 击 后 会 打开 对 话 框 ， 如 图 4-1 所 示 。 这 里 将 Social Media Mining 作为 示例 应 用 的 显示 名 称 ( 限 
制 为 最 多 32 个 字符 )。 























Create a New App ID 


Get started integrating Facebook into your app or website 


Display Name 
Social Media Mining 


Namespace 


Aunique identifier for your app (optional) 


No | sthis a test version of another app? Learn More. 





Category 


Choose a category 








By proceeding, you agree to the Facebook Platform Policies and the Facebook Privacy Policy Cancel Create App ID 

















图 4-1 创建 新 Facebook 应 用 的 对 话 窗口 
设置 好 应 用 的 名 称 和 类 别 后 ， 点 击 Create App ID 确认 创建 该 应 用 。 


至 此 ,可 以 在 My Apps 菜单 下 看 到 我 们 选择 的 应 用 名 称 ， 点 击 该 名 称 就 会 打开 应 用 仪表 盘 ， 
如 图 4-2 所 示 。 

















Social Media Mining Dashboard 


©® Dashboard 


Social Media Mining 





This app is in development mode and can or app admins, developers and testers [?| 
凌 Settings 

App ID API Version [?) App Secret 
友 Status & Review FE V2.5 eeeeeeee Show 


蔓 App Details 


Get Started with the Facebook SDK 








号 Roles 
本 Choose a Platform 
uick start guides to set up the Facebook SDK for your iOS or 
吗 Open Graph Ar pp, Canvas game or website. 
A Alerts 
Secure Your App Settings 
并 Localize 


Try It Now 


Use our app security checkup tool to see how secure your app is and identify 
potential vulnerabilities. 





国 Canvas Payments 




















图 4-2 ”应 用 仪表 盘 的 视图 








92 第 4 章 ，Facebook 帖子 、 页 面 和 用 户 互 动 








该 面板 提供 了 一 些 关 键 信息 ， 如 App1ID 和 App Secret， 这 些 都 是 接 入 API 必须 用 到 的 。 为 
了 看 到 App Secret， 你 需要 提供 Facebook 密码 来 确认 身份 。 无 须 强调 的 是 ， 不 应 该 和 其 他 任何 
人 共享 这 些 细节 。 


App ID 和 App Secret 之 间 还 有 一 个 API Version ( 图 4-2 中 使 用 的 是 v2.5 版 本 )。 默 认 情 况 
下 ,新 应 用 的 API 版 本 是 最 新 的 可 用 版 本 。 在 2014 年 的 F8 大 会 上 ，Facebook 宣布 将 在 未 来 两 年 
支持 特定 的 API 版 本 。 这 个 信息 非常 值得 注意 , 因为 当 特定 版 本 的 API 不 再 受到 支持 时 ， 如 果 你 
的 应 用 不 更 新 就 不 能 正确 运行 。 
































Facebook 平台 的 版 本 

官方 文档 ( https://developers.facebook.com/docs/apps/vVersions ) 中 详细 介绍 了 
6 Facebook 平 台 的 版 本 策略 ,以 及 特定 版 本 的 更 新 情况 ( https://developers.facebook. 

com/docs/graph-api/changelog )。 


开始 时 ， 你 的 应 用 是 在 开发 模式 中 创建 的 。 只 有 你 和 Roles 菜单 中 指定 的 其 他 Developers 
或 Testers 可 以 接 人 该 应 用 。 在 创建 应 用 的 仪表 盘 多 花 一 些 时 间 理 解 基本 的 配置 选项 及 其 隐 含 含 
义 是 非常 有 价值 的 。 





























4.1.2 ” 鉴 权 和 安全 


为 了 获得 用 户 的 资料 信息 ， 以 及 其 与 其 他 对 象 ( 如 页 面 、 地 点 等 ) 的 互动 信息 ,你 的 应 用 必 
须 获 得 带 有 特定 权限 的 访问 令 牌 。 


一 个 令 牌 对 用 户 - 应 用 的 组 合 来 说 是 唯一 的 ， 它 可 以 处 理 用 户 授权 应 用 的 许可 。 生 成 一 个 访 
问 令 牌 需要 用 户 交 互 ， 也 就 是 说 ， 用 户 必 须 在 Facebook 确认 授权 请 求 许 可 的 应 用 (通常 通过 对 
话 窗口 )。 

出 于 测试 的 目的 ， 获 取 访 问 令 牌 的 另 一 种 方法 是 使 用 Graph API Explorer。 它 是 Facebook 开 
发 的 一 个 工具 ,可 以 为 开发 者 提供 与 Graph API 交互 的 便捷 接口 ,图 4-3 展示 了 Graph API Explorer 
的 界面 ， 从 可 用 的 应 用 列表 中 选择 我 们 的 应 用 后 ， 可 以 在 Get Token 菜单 点 击 Get User Access 


Token。 









































Graph API Explorer 





Access Token: | OO OE e+ ok ~ 
[eT FAL Query 气 Get User Access Token 


全 | GET- 一 /v2.5-/me?fields=idiname Debug Enabled 所 Get App Token 





Learn more about X Uninstall the app 


到 Get Page Access Token 

















图 4-3 在 Graph API Explorer 生成 一 个 访问 令 牌 
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点 击 后 会 打开 一 个 对 话 窗口 (如 图 4-4 所 示 )， 可 用 于 指定 访问 令 牌 包含 的 权限 。 确 认 应 用 
的 访问 权限 后 会 生成 一 串 字 母 字符 串 ， 即 访问 令 牌 , 它 在 创建 后 的 2 小 时 内 有 效 。 点 击 令 牌 旁 的 
小 图 标 后 会 出 现 以 下 信息 。 


Select Permissions 


CE EAI Extended Permissions 


V user_about_me OO user_actions.books 了 user_actions.fitness 

器 user_actions.music [user actions.news 了] user_actions.video 

器 user_birthday 器 user_education_history[ ) user_events 

V user_friends user games_activity V user_hometown 

V user _likes V user_location | user_managed_groups 
(user_photos [OO user_posts juser_relationship_details 
V user_relationships 器 user_religion_politics MW user_status 

V user tagged_places [user videos 器 user_website 


器 user_work_history 


Public profile included by default. Get Access Token | Clear | Cancel 


图 4-4 在 Graph API Explorer 为 访问 令 牌 选择 权限 
从 图 4-4 可 以 看 到 , 对 Facebook 应 用 权限 的 划分 是 非常 细 粒 度 的 。 这 样 一 来 , 安装 应 用 的 用 
户 很 清楚 他 们 的 哪些 数据 是 和 你 的 应 用 共享 的 。 
对 以 下 示例 来 说 , 我 们 将 使 用 一 些 字 段 ， 如 用 户 全 名 、 地 点 和 帖子 。 对 于 可 以 准确 检索 这 些 
信息 的 代码 ， 首 先 需 要 解决 权限 问题 (如 user_location、user_posts 等 )。 
































当 用 户 首次 访问 一 个 应 用 时 ，Facebook 将 弹出 对 话 窗口 以 展示 应 用 的 权限 列表 。 
该 用 户 可 以 看 到 应 用 请 求 的 所 有 权限 。 


4.1.3 用 Python 连接 Facebook Graph API 
定义 好 应 用 的 细节 后 ， 可 以 通过 Python 接 和 人 Facebook Graph API。 


Facebook 没有 提供 官方 的 Python 客户 端 。 用 requests 库 实 现 自 己 的 客户 端 是 一 种 有 趣 的 实 
践 ， 可 以 帮助 我 们 了 解 API 的 细节 ， 不 过 已 经 有 一 些 选 项 可 以 简化 该 过 程 。 


对 接 下 来 的 示例 来 说 ， 我 们 将 使 用 基于 requests 库 的 facebook-sdk，requests 库 提 供 简单 易 
用 的 与 Web 服务 交互 的 数据 接口 。 在 撰写 本 书 时 ,该 库 在 PyPI 上 的 最 新 版 本 是 1.0.0， 并且 支持 
Python 3。 其 前 一 个 版 本 对 Python 3 的 支持 有 些 问 题 。 可 以 用 pip 在 虚拟 环境 中 安装 这 个 库 。 

















$ pip install facebook-sdk 
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遵循 前 面 介 绍 的 步骤 获取 临时 的 令 牌 后 ， 可 以 立即 测试 这 个 库 。 
首先 ， 与 第 2~3 章 中 介绍 的 配置 Twitter 的 访问 类 似 ， 我 们 将 令 牌 保存 在 代码 读 取 的 环境 变 
量 中 。 在 命令 行 窗 口 输入 以 下 命令 。 
$ export FACEBOOK TEMP TOKEN="your-token" 


以 下 脚本 facebook_my_profile.py 连接 到 Graph API， 并 查询 鉴 权 用 户 的 资料 。 














# Chap04/facebook my_profile.py 
import os 

import json 

import facebook 


六 下 name SE mln 
token = os.environ.get ('FACEBOOK_TEMP_TOKEN') 





graph = facebook.GraphAPI (token) 
profile = graph.get_object ("me", fields='name,location{general_info,location}, 
languages {name,description}') 
print (json.dumps (profile, indent=4)) 
» 十 A 
这 个 脚本 不 需要 任何 参数 ， 可 以 用 以 下 命令 运行 。 
$ python facebook my profile.py 


输出 结果 是 API 返 回 的 JSON 对 象 。 


{ 











"name": "Marco Bonzanini", 
"ocatiomr gt 
"name": "London, United Kingdom", 


"id"; "106078429431815" 


}, 
"id"Y "10207505820417553" 


} 

get_object () 函数 将 Facebook Graph 中 的 特定 对 象 的 ID 或 名 称 作 为 第 一 个 参数 ， 并 返回 
相应 的 信息 。 在 我 们 的 示例 中 ，ID me 只 是 鉴 权 用 户 的 别名 。 如 果 不 指定 第 二 个 参数 和 字段 ， 那 
么 API 只 会 返回 对 象 的 ID 和 和 名称。 在 这 个 示例 中 ， 我 们 明确 要 求 输出 包含 name 和 location。 
正如 你 看 到 的 ，location 并 不 是 一 个 字符 串 ， 而 是 拥有 自己 字段 的 复杂 对 象 ( 因为 这 里 没有 特 
别 指定 ， 所 以 地 点 包含 的 字段 只 有 ia 和 name )。 


从 GraphAPI 类 获取 数据 的 接口 非常 直接 。 这 个 类 还 提供 了 在 Facebook 上 发 布 和 更 新 数据 
的 功能 ， 人 允许 应 用 与 Facebook 平 台 交 互 〈 例 如 ， 在 鉴 权 用 户 的 墙 板 上 发 布 一 些 内 容 )。 


示例 中 的 主要 方法 如 下 所 示 。 


口 get_object (ida，x*xargs): 用 于 检索 给 定 id 的 对 象 ， 而 且 接收 可 选 关 键 字 参数 
D get_objects (ids，**args): 用 于 检索 给 定 idas 列表 的 对 象 ， 而 且 接 收 可 选 关 键 字 参数 
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口 get_connections(id，connection name，**args): 用 于 检索 给 定 ia 对 象 的 
connection_name 关系 中 包含 的 对 象 列 表 ， 而 且 接收 可 选 关键 字 参 数 

口 request (path, args=None, post_args=None, files=None, method=None): 
该 通用 方法 用 API 文档 中 定义 的 path 实现 对 API 的 特定 请 求 ， 可 选 参 数 定义 了 如 何 执 
行 API 调 用 


facebook_my_profile.py 脚本 中 的 示例 用 get_object () 方 法 下 载 当 前 用 户 的 资料 。 在 
这 个 示例 中 , 可 选 关键 字 参 数 fields 用 于 指定 我 们 希望 从 API 检 索 的 属性 。 用 户 资料 的 完整 属 
性 列表 可 以 参见 文档 ( https://developers.facebook.com/docs/graph-api/reference/v2.5/user )。 


根据 API 规范 ,我们 可 以 看 到 如 何 定制 字段 的 字符 串 以 获取 更 多 信息 。 也 可 以 执行 能 套 请 求 ， 
并 获取 与 给 定 用 户 连 接 的 对 象 的 信息 。 我 们 的 示例 检索 了 位 置 , 即 页 面 类 型 的 一 个 对 象 。 由 于 每 
个 页 面 都 有 一 些 相应 的 属性 ， 也 可 以 在 请 求 中 包含 这 些 属性 。 例 如 ， 更 改 get_object () 请 求 。 


profile = graph.get_opject("me"，fields='name, Location{f1location} ') 


first_level{second_level} 语 法 可 以 查询 舱 套 对 象 。 在 这 个 特例 中 ，location 的 命名 
可 能 会 造成 混淆 ， 因 为 它 既 是 一 级 属性 也 是 二 级 属性 。 解 决 方法 是 理解 数据 类 型 。 第 一 级 的 
location 是 用 户 资料 的 一 个 属性 ， 其 数据 类 型 是 一 个 Facebook 页 面 (拥有 也、 名 称 和 其 他 属性 )。 
第 二 级 的 1ocation 是 前 面 提 到 的 Facebook 页 面 的 一 个 属性 ， 而 且 它 是 实际 位 置 的 一 个 描述 符 ， 
由 latitude 和 1longitude 组 成 。 对 于 带 有 二 级 location 信息 的 前 述 代 码 ， 输 出 如 下 所 示 。 


{ 


























































































































"name": "Marco Bonzanini", 
"LocGation sl 
"name": "London, United Kingdom", 


"id": "106078429431815" 
l 
"Ld L0207505820417553., 
oyers one on et 
"id": "106078429431815"， 
"EGCatdonYs 
"oity"™: "London™, 
"Jatitude": 51.516434161634, 
"longitude": =0.12961888255995, 
"country": "United Kingdom" 
} 
} 
} 


oP 为 location 对 象 默认 检索 到 的 属性 是 city、country、latitude 和 longitugde。 





正如 本 节 开 头 提 到 的 ， 随 着 新 版 Facebook Graph API 的 出 现 , 一 些 数据 挖掘 的 机 会 受到 了 限 
制 。 尤 其 是 挖掘 社交 图 谱 〈 即 好 友 关 系 ) 只 适用 于 我 们 应 用 的 用 户 。 以 下 脚本 尝试 为 鉴 权 用 户 获 
取 好 友 列 表 。 
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# Chap04/facebook_get_friendqs .py 
import os 

import facebook 

import json 


TE name 三 a 
token = os.environ.get ('FACEBOOK_TEMP_TOKEN') 





graph = facebook.GraphAPI (token) 

user = graph.get_object ("me") 

friends = graph.get_connections (user["id"], "friends") 
print (json.dumps (friends, indent=4)) 


虽然 这 里 API 的 调用 需要 我 们 的 应 用 具有 获取 user_friends 的 权限 ,但 该 脚本 仍然 不 能 
获取 有 关 好 友 的 大 量 数据 ， 因 为 鉴 权 用 户 ( 即 me ) 目前 是 应 用 的 唯一 用 户 。 以 下 是 一 个 示例 
{ 
"nadata rs ,Pl; 
"summary": { 
"total_count": 266 


} 
} 


可 以 看 到 ,我 们 能 检索 的 唯一 信息 是 给 定 用 户 的 好 友 数 量 , 而 好 友 的 数据 是 由 空 列表 表示 的 。 
如 果 一 些 好 友 也 是 我 们 应 用 的 用 户 ， 那 么 就 可 以 通过 这 个 调用 获取 他 们 的 资料 。 


最 后 , 介绍 一 下 Graph API 的 访问 频率 限制 。 正如 文档 ( https://developers.facebook.com/docs/ 
graph-api/advanced/rate-limiting ) 中 介绍 的 那样 , 很 少 会 达到 访问 上 限 。 该 上 限 是 根据 每 个 应 用 和 
用 户 计 算 的 ,如 果 应 用 达到 了 每 日 访问 次 数 上 限 , 那么 该 应 用 的 所 有 调用 都 会 被 限制 ， 而 不 只 是 
给 定 用 户 的 调用 。 每 日 允许 的 次 数 基于 前 一 天 的 用 户 数量 和 当天 登录 数量 计算 , 其 总 和 构成 了 用 
户 基数 。 应 用 的 每 个 用 户 可 以 在 60 分钟 的 时 间 窗 口内 进行 200 次 的 API 调 用 。 这 个 限制 对 我 们 
的 示例 来 说 足够 了 。 建 议 你 查看 官方 文档 ， 了 解 应 用 的 访问 频率 限制 可 能 带 来 的 影响 。 


下 一 方 将 下 载 鉴 权 用 户 的 所 有 帖子 ， 并 对 这 部 分 数据 进行 分 析 。 

























































































4.2 挖掘 你 的 帖子 

前 面 用 一 个 简单 示例 介绍 了 Python facebook-sdk， 接 下 来 将 介绍 数据 挖掘 。 第 一 个 练习 是 下 
载 自己 的 帖子 〈 即 鉴 权 用 户 发 布 的 帖子 )。 

facebook_get_my_posts.py 脚本 接 人 Graph API， 并 获取 鉴 权 用 户 me 发 布 的 帖子 列表 。 


用 第 2~3 章 中 介绍 过 的 JSON Lines 格式 将 这 些 帖子 保存 在 my_posts.jsonl 文件 中 , 文件 的 每 一 行 
是 一 个 JSON 文档 。 
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# Chap04/facebook_ get_my_posts.py 
import os 

import json 

import facebook 

import requests 


让 下 marme == ' main 
token = os.environ.get ('FACEBOOK_TEMP_TOKEN') 





graph = facebook.GraphAPI (token) 
posts = graph.get_connections('me', 'posts', fields='message,created time, 
description,caption,link,place,status_type,shares') 


while True: # 不 停 地 翻 页 
eh 
with open('my_posts.jsonl', 'a') as f: 
for post in posts['data']: 
f.write(json.dumps (post)+"\n") 
# 进入 下 一 页 
posts = requests.get (posts['paging'] ['next']).json() 
except KeyError: 
# 没有 下 一 页 就 跳出 循环 
break 


这 个 脚本 不 需要 任何 命令 行 参 数 ， 因 此 可 以 用 以 下 命令 运行 。 


$ python facebook get my posts.py 


该 脚本 提供 了 翻 页 的 一 个 有 趣 示 例 。 因 为 帖子 列表 太 长 , 无 法 通过 单个 API 调用 收集 ， 所 以 
Facebook 提供 了 翻 页 信息 。 


用 get_connections () 方 法 执行 的 初始 API 调 用 返回 第 一 页 的 帖子 (保存 在 posts ['gata'] 
中 ), 也 返回 了 迭代 不 同 页 面 需 要 的 信息 ,保存 在 posts['paging'] 中 。 因 为 Python facebook-sdk 
库 中 并 没有 实现 翻 页 功能 ， 所 以 需要 直接 使 用 requests 库 。 好 在 Graph API 提供 的 响应 包含 了 我 们 需 
要 请 求 的 URL, 这 样 就 可 以 获得 下 一 个 页 面 的 帖子 .实际 上 , 如 果 审 查 posts['paging'] ['next'] 
变量 的 值 ， 可 以 看 到 竺 查询 的 准确 URL 字符 串 ， 其 中 包括 访问 令 牌 、API 版 本 号 和 所 需 的 其 他 
详细 信息 。 


翻 页 是 在 while True 循环 中 实现 的 ， 达 到 最 后 的 页 面 时 会 被 keyError 异常 中 断 。 因 为 
最 后 一 个 页 面 不 会 包含 bosts ['paging'] [next'] 的 引用 , 所 以 如 果 试 图 获取 字典 的 这 个 键 ， 
就 会 抛 出 异常 并 跳出 循环 。 


执行 代码 后 ， 可 以 查看 my_posts.jsonl 文件 的 内 容 。 这 个 文件 的 每 一 行 都 是 一 个 JSON 文档 ， 
包含 唯一 的 ID 、 该 帖子 的 文本 消息 内 容 和 ISO 8601 格式 的 创建 时 间 。 以 下 的 JSON 文档 表示 其 
中 一 个 下 载 的 帖子 。 


{ 
"created time": "2015-11-04T08:01:21+0000", 
"id": "10207505820417553_10207338487234328",， 
"message": "The slides of my lighting talk at the PyData London 
meetup last night\n" 
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与 get_object () 函数 类 似 ，get_connections () 函数 接收 fields 参数 ， 以 检索 目标 对 
象 的 更 多 属性 。 以 下 脚本 重 构 了 前 面 示例 中 的 代码 ， 以 获取 帖子 的 更 多 属性 。 


# Chap04/facebook_ get_ my_posts_ more_ fields.py 
import os 

import json 

import facebook 

import requests 





Tf name = 
token = os.environ.get ('FACEBOOK_TEMP_TOKEN') 





Graph = facebook.GraphAPI (token) 
all_fields = [ 

'message', 

'created time', 

'description', 

'caption', 

EL 

'place', 

"Status tvpe'sy 

'message_tags', 

'picture', 

'privacy', 

'properties', 

'story_tags', 

人 

i 

'with tags' 
] 
all_fields = ','.join(all_fields) 
posts = graph.get_connections('me', 'posts', fields=all_ fieldqs) 


while True: # 继续 翻 页 
hl 
with open('my_posts.jsonl', 'a') as f: 
fOr Dost "in voSste[ "datar]: 
f.write(json.dumps (post)+"\n") 
# 跳 转 到 下 一 页 面 
posts = requests.get (posts['paging'] ['next']).json!() 
except KeyError: 
# 没有 新 的 页 面 则 跳出 循环 
break 


我 们 想 要 检索 的 所 有 字段 是 在 a11_fielqds 列表 中 声明 的 , 然后 按照 Graph API 的 要 求 
将 这 些 属性 名 称 用 逗号 连接 成 一 个 字符 串 。 接 着 通过 fielgs 关键 字 参 数 将 这 个 值 传递 给 
get_connections () 方 法 。 


下 一 方 将 更 详细 地 介绍 帖子 的 结构 。 
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4.2.1 帖子 的 结构 


帖子 是 复杂 的 对 象 ， 因 为 它 可 以 是 用 户 发 布 的 任意 一 段 内 容 。 表 4-1 总 结 了 帖子 的 有 趣 属性 
及 其 含义 。 























表 4-1 帖子 的 属性 及 其 含义 

















































































































属性 名 称 描 述 
id 表示 唯一 标识 符 的 字符 串 
application App 对 象 ， 其 中 包含 用 于 发 布 帖子 的 应 用 的 信息 
status_type 表示 帖子 类 型 的 字符 串 〈 如 aqdqeq_photos 或 sharegd_story ) 
message 表示 帖子 状态 消息 的 字符 串 
created_time 表示 帖子 发 布 时 间 的 字符 串 ，ISO 8601 格式 
updated_time 表示 帖子 最 新 修改 时 间 的 字符 串 ，ISO 8601 格式 
message_ tags 消息 中 标注 的 资料 列表 
from 发 布 消息 的 资料 
to 占 子 中 提 及 或 作为 目标 的 资料 列表 
place 目 子 带 有 的 位 置信 息 
privacy 带 有 帖子 隐私 设置 的 对 象 
story_tags 同 message_tags 
with tags 被 标记 为 帖子 作者 的 资料 列表 
properties 所 有 附带 视频 的 属性 列表 ( 如 视频 的 长 度 ) 








一 个 Post 对 象 所 拥有 的 属性 比 表 4-1 列 出 的 要 多 。 可 以 查看 官方 文档 (https:/developers.facebook. 
com/docs/graph-api/reference/v2.5/post ) 获取 完整 的 属性 列表 ,这 种 帖子 对 象 的 复杂 性 在 文档 中 更 
清晰 。 














4.2.2 时间 频率 分 析 


下 载 所 有 帖子 后 , 我 们 将 基于 不 同 帖子 的 创建 时 间 进 行 分 析 。 这 个 分 析 的 目的 是 突出 用 户 的 
行为 ， 如 用 户 何 时 在 Facebook 上 发 布 了 最 多 的 帖子 。 


facebook_post_time_stats.py 脚本 用 ArgumentParser 获取 命令 行 输入 , 即 带 有 帖子 
的 .jsonl 文件 。 

















# Chap04/facebook post time stats.py 
import json 

from argparse import ArgumentParser 
import dateutil.parser 

import numpy as np 

import pandas as pd 

import matplotlib.pyplot as plt 
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from datetime import datetime 


def get_parser (): 
parser = ArgumentParser() 
parser.add _ argument ('--file', 
Ef 
required=True, 
help='The .json1l file with all the posts') 
return parser 


下 name ee maTii 
parser = get_parser() 
args = parser.parse_args() 
with open(args.file) as 工 : 
BosStes = :|| 
for line in f: 
post = json.loads (line) 
created time = dateutil.parser.parse(post['created time']) 
posts.append (createdqd time.strftime('%H:®%M:%S')) 
ones = np.ones (len(posts)) 
idx = pd.DatetimeIndex (posts) 
# 实际 序列 (目前 是 单位 1 组 成 的 序列 ) 
my_series = pd.Series (ones, index=idx) 





# 重 抽样 为 1 小 时 间隔 的 区 间 
per_hour = my_series.resample('1H', how='sum').fillna(0) 
# 画图 
fig; ax = Plt .subplots'() 
ax.grid(True) 
ax.set_ title("Post Frequencies") 
width = 0.8 
ind = np.arange (len (per_hour)) 
plt.bar(ind, per_hour) 
tick pos = ind + width / 2 
labels = [] 
for i in range(24): 
d = datetime.now() .replace (hour=i, minute=0) 
labels.append(d.strftime('%H:%®M')) 
plt.xticks (tick_ pos, labels, rotation=90) 
plt.savefig('posts_per_hour.png') 


可 以 用 以 下 命令 运行 该 脚本 。 








$ python facebook post time stats.py -f my posts.jsonl 


该 脚本 首先 生成 带 有 每 个 帖子 创建 时 间 的 帖子 列表 。dateutil.parser.parse() 函数 可 以 
读 取 ISO 8601 日 期 字符 串 ， 并 存放 到 aatetime 对 象 中 ， 然 后 用 strftime () 函数 将 其 转换 为 
HH:MM:SS 字符 串 。 


然后 用 创建 时 间 列 表 索 引 pandas Series， 该 序列 的 初始 值 是 一 个 由 1 组 成 的 序列 。 接 着 按 小 
时 对 该 序列 进行 重 抽 样 ， 并 汇总 帖子 的 数量 。 至 此 ， 我 们 得 到 了 一 个 有 24 项 的 序列 ， 每 一 项 表 
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示 一 天 中 的 一 个 小 时 ,并 且 带 有 那个 小 时 发 布 的 帖子 数量 。 最 后 一 部 分 代码 的 目的 是 , 用 简单 的 
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图 4-5 展示 了 画图 结果 。 


柱状 图 画 出 序列 ， 以 便 对 一 天 中 的 帖子 数量 分 布 进行 可 视 化 表示 。 


























图 4.5 “帖子 的 时 间 频 率 
可 以 看 到 ,发 布 时 间 在 傍晚 和 晚上 达到 了 峰值 , 但 其 扩展 度 是 全 天 持续 的 (最低 频率 在 深夜 
晨 )。 一 方面 需要 注意 这 里 并 没有 考虑 地 点 ， 即 创建 时 间 被 归 一 化 为 UTC ( 协调 世界 时 间 )， 
因此 没有 考虑 原始 的 时 区 。 例 如， 如 果 一 个 帖子 在 美国 东海 岸 的 下 午 4 点 发 布 , 那么 该 帖子 的 创 



































建 时 间 会 被 UTC 记录 为 晚 9 点 。 这 是 因为 EST ( 美国 东部 标准 时 间 ) 相当 于 UTC - 05:00， 即 


于 UTC 5 个 小 时 (在 不 执行 夏令 时 的 秋冬 季 )。 


挖掘 Facebook 页 面 





Facebook 不 只 用 于 个 人 和 亲朋 好 友 联 系 , 很 多 公司 、 品 牌 和 机 构 还 用 其 与 人 们 互动 。Facebook 























D 与 一 组 受众 联系 ( 如 作为 在 线 社 


个 Facebook 个 人 账户 创建 和 管理 ， 用 途 很 多 : 


口 分 享 商业 信息 ( 如 一 家 餐馆 或 者 在 线 商店 ) 
口 表示 一 个 名 人 【 如 一 个 足球 明星 或 者 播 滚 乐队 ) 





区 的 扩展 ) 














与 个 人 账户 不 同 的 是 ,页 面 上 发 布 的 帖子 是 公开 可 见 的 。 普 通用 户 可 以 喜欢 一 个 页 面 , 这 意味 
门将 通过 新 闻 订 阅 收 到 发 布 内 容 的 更 新 ， 这 里 的 新 闻 订 阅 就 是 他 们 自 定 义 的 Facebook 主页 。 























102 第 4 章 Facebook 帖子 、 页 面 和 用 户 互动 





例如 ，Packt 出 版 社 的 Facebook 主页 是 https://www.facebook.com/PacktPub ， 其 中 包含 了 关于 
PacktPub 的 基本 信息 ， 以 及 由 PacktPub 发 布 的 与 纸 质 书 、 电 子 书 和 视频 教程 相关 的 帖子 。 


我 们 可 以 从 API 文 档 看 到 给 定 页 面 的 很 多 信息 ， 特 别 是 关于 页 面 的 以 下 属性 。 


口 ia: 这 个 页 面 的 数字 标识 符 

口 name: 在 Facebook 显示 的 页 面 的 名 称 

Dabout: 页 面 的 文本 描述 

口 Link: 链接 到 该 页 面 的 Facebook 链接 

口 website: 如 果 存 在 的 话 ， 即 为 机 构 的 网 页 

口 general_info: 有 关 页 面 的 常见 信息 的 文本 字段 
口 Likes: 喜欢 该 页 面 的 用 户 数量 


一 个 Page 对 象 也 可 以 与 其 他 对 象 连接 , 文档 描述 了 与 其 他 对 象 连接 的 所 有 情况 , 如 下 所 示 。 


口 posts: 页 面 发 布 的 帖子 列表 

D photos: 页 面 的 图 片 

口 albums: 页 面 发 布 的 图 片 专辑 列表 
口 picture: 该 页 面 的 信息 图 片 




































































特定 的 页 面 类 型 可 以 显示 额外 的 信息 ,这 些 信 息 是 为 其 商业 用 途 定 制 的 (例如 , 一 个 餐馆 可 
以 显示 开放 时 间 ， 一 个 品牌 可 以 显示 品牌 成 员 的 列表 等 )。 














以 下 脚本 查询 Facebook Graph API， 以 获得 关于 特定 Facebook 页 面 的 基本 信息 。 


# Chap04/facebook_get_ page_info.py 
import os 

import json 

import facebook 

from argparse import ArgumentParser 


def get_parser(): 
parser = ArgumentParser() 
parser.add_argument ('--page') 
return parser 


于 下 name 守 : 光 生 二 寺 科 
parser = get_parser() 
args = parser.parse_args() 





token = os.environ.get ('FACEBOOK_TEMP_TOKEN') 
fields = [ 

Lite 

'name', 

'about '， 

'likes', 
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'website'， 
"ir 
] 
fields = ','.join(fields) 


graph = facebook.GraphAPI (token) 
page = graph.get_object (args .page, fields=fields) 


print (json.dumps (page, indent=4)) 
该 脚本 用 ArgumentParser 的 一 个 实例 从 命令 行 获取 页 面 名 称 (或 页 面 D )， 如 下 所 示 。 


$ python facebook get page info.py --page PacktPub 





输出 结果 如 下 所 示 。 
{ 

"id": "204603129458"， 

"website": "http://www.PacktPub.com", 

"Eikes"™: :6357; 

"about": "Packt Publishing provides books, eBooks, video 
tutorials, and articles for IT developers, administrators, and 
users.", 

"name": "Packt Publishing", 

"link": "https://www.facebook.com/PacktPub/" 


} 
还 可 以 用 Facebook Graph API Explorer 获取 可 用 字段 的 介绍 。 


4.3.1 从 页 面 获取 帖子 


介绍 完 如何 获 取 一 个 页 面 的 基本 信息 后 , 我 们 将 介绍 如 何 下 载 一 个 页 面 发 布 的 帖子 , 并 将 下 
载 的 帖子 保存 为 常见 的 JSON 行 格式 ， 以 便于 后 续 分 析 帖 子 。 


这 个 步骤 与 我 们 前 面 下 载 鉴 权 用 户 发 布 的 帖子 的 过 程 类 似 , 但 其 中 还 包含 一 些 用 于 计算 用 户 
参与 度 的 信息 。 


# Chap04/facebook_dget_page_posts .PyY 
import os 

import json 

from argparse import ArgumentParseL 
import facebook 

import requests 











、 


def get_parser(): 
parser = ArgumentpParser () 
parser.add_ argument ('--page') 
parser.add argument ('--n', default=100, type=int) 
return parser 


i marme 生生 于 和 | 辣 下 生生 六 
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parser = get_parser() 
args = parser.parse_args() 


token = os.environ.get ('FACEBOOK_TEMP_TOKEN') 


Graph = facebook.GraphAPI (token) 
all_fields = [ 

do 

'message', 

'created time', 

'shares', 

'lJikes.summary (true)', 

'comments.summary (true)' 


] 


all_fields = ','.join(all_fields) 
posts = graph.get_connections('PacktPub', 
"DOStS"s 


fields=all_fields) 


downloaded = 0 
while True: # 保持 翻 页 
if downloaded >= args.n: 
break 
CE: 
fname = "posts_{}.jsonl".format (args .page) 
with open(fname, 'a') as 工 : 
for post in posts['data']: 
downloaded += 1 
f.write(json.dumps (post)+"\n") 
# 跳 转 到 下 一 页 
posts = requests.get (posts['paging'] ['next']).json!() 
except KeyError: 
# 没有 更 多 页 面 ， 则 跳出 循环 
break 


这 个 脚本 用 ArgumentParser 的 一 个 实例 从 命令 行 获取 页 面 名 称 (或 页 面 ID )， 以 及 我 们 
想 要 下 载 的 帖子 的 数量 。 在 示例 代码 中 ， 帖 子 的 数量 是 可 选 的 ( 默认 为 100 )。 正 如 前 面 下 载 鉴 
权 用 户 的 帖子 那样 ,我 们 将 定义 想 要 在 结果 中 包含 的 字段 列表 。 特别 地 ， 由 于 要 用 该 数据 进行 
关 用 户 参 与 度 的 分 析 , 我 们 和 希望 结果 中 包含 有 关 帖 子 被 喜欢 、 分 享 和 评论 次 数 的 信息 。 这 是 通过 
添加 shares、likes.summary (true) 和 comments .summary (true) 字 段 实现 的 。 对 于 喜欢 


和 评论 ，surmary (true) 属性 用 于 总 结 统计 值 ， 即 聚合 计数 值 。 





























下 载 过 程 在 while True 循环 中 实现 ， 这 与 下 载 鉴 权 用 户 帖 子 的 方法 类 似 。 不 同 之 处 是 
downloaded 计数 带 ， 它 在 每 次 检索 帖子 时 加 1。 它 用 于 限制 我 们 希望 检索 的 帖子 的 数量 ， 因 为 
页 面 中 往往 会 发 布 大 量 内 容 。 


可 以 用 以 下 命令 运行 这 段 代码 。 








$ python facebook get page posts.py --page PacktPub --n 500 
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执行 上 述 命令 将 查询 Facebook Graph API， 并 生成 带 有 500 个 帖子 的 posts_PacktPub.jsonl 文 
件 ， 每 行 是 一 条 帖子 。 以 下 代码 展示 了 一 条 帖子 〈 即 jsonl 文件 的 一 行 ) 的 漂亮 打印 效果 。 























VL "post-id" 7 


"createdq _ time": "date in ISO 8601 format", 
"message": "Text of the message", 
"comments": { 
"data": [ /* 评论 列表 */ ]， 
"paging": { 
SO 王八 
"fter "emisor= id", 
"before": "cursor-id" 


} 
} 
"summary": { 
"can_comment": true, 
"order": "ranked", 
"total_count": 4 


} 





l 
"Jikes": { 


"data": [ /* 用 户 列表 */ ]， 
"paging": { 
"cursors": { 
"After. "EUSOLr=Ld 
"efore"™ "cuUrsor=id" 


} 
} 
"summary": { 
"can_like": true, 
"has_liked": false， 
Eotal eounts 10 
} 
} 
"shares": { 
"oount a. 9 
} 
} 


可 以 看 到 ， 帖 子 是 复杂 的 对 象 ， 具 有 不 同 的 舱 套 信息 。 度 量 用 户 参 与 度 的 字段 是 shares、 
likes 和 comments。shares 字段 表示 分 享 过 该 故事 的 用 户 数量 。 由 于 隐私 设置 ， 并 未 包含 其 
他 信息 。 当 分 享 一 段 内 容 时 ， 用 户 实际 上 也 在 创建 自己 的 帖子 , 因此 这 条 新 帖子 不 应 该 被 该 网 络 
外 的 人 看 到 。 另 一 方面 ，comments 和 1ikes 字段 是 与 帖子 本 身 相连 的 对 象 ， 因 此 它们 的 信息 


更 详细 一 些 。 
对 于 comments 字段 来 说 , data 键 包含 与 评论 相关 的 对 象 列 表 , 每 条 评论 的 结构 如 下 所 示 。 













































































{ 
"created _ time": "date in ISO 8601 format", 


"i 
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dSer= ld" 
"name": "user-name" 
Fy 
"id": "comment-id", 
"message": "text of the message" 


} 

comments 对 象 还 包括 一 个 paging 字段 ， 为 了 避免 评论 的 数量 超过 一 个 页 面 ， 这 个 字段 包 
含 了 对 指针 的 引用 。 给 定 原始 请 求 ， 而 且 请 求 中 包含 对 summary (true) 属 性 的 引用 ， 那么 结果 
会 包含 一 个 简短 的 摘要 数值 统计 。 我 们 比较 关注 total_count。 


1ikes 对 象 与 comments 对 象 有 些 类 似 ,不 过 前 者 在 这 个 示例 中 的 数据 更 简单 。 明 确 来 说 ， 
这 里 有 一 个 用 户 ID 列表 ， 表 示 喜 欢 该 帖子 的 用 户 。 类 似 地 ， 我 们 也 会 有 summary (true) 属 性 ， 
表示 喜欢 数量 的 摘要 数值 统计 。 

下 载 好 数据 后 就 可 以 做 不 同 的 离线 分 析 了 。 

Facebook Reactions 和 Graph API 2.6 

本 章 的 草稿 完成 不 久 后 ，Facebook 推出 了 名 为 Reactions 的 新 功能 。 作 为 喜欢 按钮 的 扩展 ， 


Reactions 允许 用 户 表达 对 特定 帖子 的 情绪 , 而 不 仅仅 是 喜欢 .用 户 现在 可 以 表达 的 新 情绪 有 喜爱 、 
大 笑 、 惊 证、 伤心 、 慎 经 ( 仍 有 喜欢 这 一 项 )。 图 4-6 展示 了 这 些 新 的 按钮 。 


















































图 4-6 ”Facebook Reactions 的 可 视 化 


支持 Facebook Reactions 的 第 一 个 Graph API 版 本 是 2.6。 本 章 中 的 示例 大 多 数 基 于 2.5 版 本 
的 API。 如 果 计 划 在 数据 分 析 中 用 到 这 些 特征 ， 你 需要 确保 自己 使 用 的 是 正确 版 本 。 关 于 如 何 获取 
有 关 Reactions 的 数据 ， 可 以 查看 官方 文档 ( https://developers.facebook.com/docs/graph-api/reference/ 
post/reactions )。 


从 开发 者 的 角度 来 看 ，Reactions 和 喜欢 非常 相似 。 如 果 用 API 请 求 有 关 Reactions 的 信息 ， 
我 们 得 到 的 每 条 帖子 的 结构 如 下 所 示 。 


{ 
"message": "The content of the post", 
"created time": "creation date in ISO 8601", 
"id": "the ID of the post", 
"reactions": { 
"data": [ 
‘ 
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"id": "some-user-id", 
"name": "John Doe", 
"type": "WOW" 
} 
{ 
"id"y “aiother- -user=1id"., 
"name": "Jane Doe", 
"type": "LIKE" 
} 
/* 更 多 的 Reactions:…… ph 
] 
} 
"Jikes": { 


"data": /* 与 喜欢 相关 的 数据 ， 和 之 前 一 样 */ 
} 
} 


虽然 本 章 的 示例 主要 将 喜欢 和 评论 作为 理解 用 户 参 与 的 方式 , 但 这 种 方法 也 很 容易 扩展 到 新 
的 特征 ， 从 而 更 好 地 帮助 发 布 者 理解 用 户 和 好 友 对 其 内 容 的 看 法 。 





4.3.2 度量 参与 度 


接 下 来 分 析 Facebook 页 面 发 布 的 帖子 ， 并 探讨 如 何 度量 用 户 的 参与 度 。Graph API 提供 的 数 
据 包 含 以 下 信息 : 


口 帖子 被 分 享 的 次 数 
口 喜欢 该 帖子 的 用 户 数量 
口 与 该 帖子 相关 的 用 户 数量 
口 该 帖子 的 评论 数量 

实际 上 , 分享、 喜欢 和 评论 都 是 用 户 基 于 其 他 人 发 布 的 一 段 内 容 的 反应 。 理 解 这 些 动作 背后 
的 真实 原因 是 非常 困难 的 ( 例如， 如 何 区 分 讽刺 和 真实 的 赞赏 )， 深 度 分 析 这 些 反 应 背后 的 心理 
因素 超出 了 本 书 的 范围 , 因此 就 本 书 中 的 数据 按 掘 示例 来 说 ,我 们 假设 具有 更 多 互动 的 帖子 更 ”成 
功 ”。 这 里 “成 功 ” 是 带 双 引号 的 一 个 词 ， 因 为 我 们 并 没有 对 其 进行 准确 定义 ， 因 此 本 节 只 计算 
用 户 与 页 面 交互 的 次 数 。 


下 面 的 脚本 打印 了 拥有 最 多 互动 次 数 的 Facebook 页 面 上 的 帖子 信息 。 















































# Chap04/facebook_ top_posts.py 
import json 
from argparse import ArgumentParser 


def get_ parser(): 
parser = ArgumentParser () 
parser.add_ argument ('--page') 
return parser 
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计生 name maT 
parser = get_parser() 
args = parser.parse_args() 





fname = "posts_{}.jsonl".format (args .page) 


all_posts = [] 
with open(fname) as f: 
for line in f: 
post = json.loads (line) 


n_likes = post['likes']['summary'] ['total_count'] 
n_comments = post['comments']['summary'] ['total_count'] 
tys 

n_shares = post['shares'] ['count'] 


except KeyError: 
n_shares = 0 
post['all_interactions'] = n_ likes + n_shares + n_ comments 
all_posts.append (post) 
most_liked all = sorted(all_posts, 
key=lambda x: x['all_ interactions'], 
reverse=True) 
most_liked = most_liked all[0] 
message = most_liked.get ('message', '-empty-') 
created at = most_liked['created time'] 
n_likes = most_liked['likes']['summary'] ['total_count'] 
n_comments = most_liked['comments']['summary'] ['total_count'] 
print ("Post with most interactions:") 
"Message: {}".format (message)) 
"Creation time: {}".format (created_ at)) 
"Likes: {}".format (n_likes)) 
"Comments: {}".format (n_comments)) 





print 
print 





贡生 





( 
( 
( 
print( 
ts 
n_shares = most_liked['shares']['count'] 
print ("Shares: {}".format (n_shares)) 
except KeyError: 
pass 
print ("Total: {}".format (most_liked['all_interactions'])) 


该 脚本 用 Argument Pars r 从 命令 行 获取 参数 ， 可 以 用 以 下 命令 运行 。 

$ python facebook top posts.py --page PacktPub 

当 和 迭代 帖子 时 ， 我 们 为 每 个 帖子 引入 一 个 all_interactions 键 , 计算 的 是 喜欢 、 分 享 和 
评论 的 总 和 。 如 果 该 帖子 还 未 被 任何 用 户 分 享 ， 则 shares 键 不 会 出 现在 字典 中 ， 因 此 


post['shares'] ['count'] 接 口 放 在 try/except 中 ， 当 这 个 键 不 存在 时 ， 分 享 次 数 的 值 默 
认为 0。 

















作为 sorting() 函数 中 的 一 个 排序 选项 , 新 的 a11_interactions 键 返回 的 是 按照 互动 次 
数 逆 序 排列 的 帖子 列表 。 


脚本 的 最 后 一 部 分 打印 信息 ， 输 出 结果 如 下 所 示 。 
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Post with most interactions: 

Message: It's back! Our $5 sale returns! 
Creation time: 2015-12-17T11:51:00+0000 
Likes: 10 

Comments: 4 

Shares: 9 

Total: 23 


虽然 找到 具有 最 多 互动 次 数 的 帖子 是 一 个 有 趣 的 练习 ， 但 这 并 未 揭示 整体 情况 。 


下 一 步 是 验证 一 天 中 的 特定 时 间 段 是 否 比 其 他 时 间 段 更 成 功 。 也 就 是 说 , 是 否 特定 时 间 段 发 
布 的 帖子 获得 的 互动 次 数 更 多 。 


以 下 脚本 用 pandas .DataFrame 来 聚合 互动 的 统计 值 ， 并 画 出 以 1 小 时 为 区 间 的 结果 ， 有 具 
体 做 法 与 我 们 前 面 分 析 鉴 权 用 户 时 类 似 。 


# Chap04/facebook_ top_posts_plot.py 
import json 


from argparse import ArgumentParser 
import numpy as np 


import pandas as pd 

import dateutil.parser 

import matplotlib.pyplot as plt 
from datetime import datetime 














def get_ parser(): 
parser = ArgumentParser () 
parser.add argument ('--page') 
return parser 


if name., Sa 
parser = get_parser() 
args = parser.parse_args() 





fname = "posts_{}.jsonl".format (args .page) 


n_likes = [ 


with open(fname) as f: 
fOr Tinie "dri f: 
post = json.loads (line) 
created time = dateutil.parser.parse(post['created time']) 


n_likes.append(post['likes']['summary']['total_count']) 
n_comments.append(post['comments']['summary']['total_count']) 
try: 

n_shares.append(post['shares']['count']) 


except KeyError: 

n_shares.append (0) 
n_all.append(n likes[-1] + n_shares[-1] + n_comments{[-1]) 
all_posts.append (createdqd time.strftime('%H:%M:%S')) 
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idx = pd.DatetimeIndex(all_posts) 


data. = 1{ 
'Jikes': n_likes, 
'comments': n_ comments, 
'shares': n_shares, 


机 二 
} 


my_series = pd.DataFrame (data=data, index=idx) 


# 重 抽样 成 以 1 小 时 为 区 间 


per_hour = my_series.resample('1h', how='sum') .fillna(0) 


# 画图 
fig, -ax. SPIt, SupDlots.() 
ax.grid!(True) 
ax.set_ title("Interaction Frequencies") 
width = 0.8 
ind = np.arange (len(per_ hour['all'])) 
plt.bar(ind, per_hour['all']) 
tLek PDOs = ,ind 4 Widtlh 2 
labels = [] 
for i in range(24): 
d = datetime.now() .replace (hour=i, minute=0) 
labels.append(d.strftime('%H:%®M')) 
plt.xticks (tick pos, labels, rotation=90) 
plt.savefig('interactions_per_hour.png') 








可 以 用 以 下 命令 运行 上 述 脚 本 。 


$ python facebook top posts plot.py --page PacktPub 


matplotlib 的 图 像 输出 结果 保存 在 interactions_per_hour.png 文件 中 ， 如 





图 4-7 所 示 。 
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图 4-7 互动 频率 (每 小 时 聚合 ) 
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代码 迭代 jsonl 文件 ， 为 每 条 帖子 构建 列表 以 存储 各 种 统计 值 : 喜欢 的 数量 、 分 享 的 数量 、 
评论 的 数量 以 及 它们 的 综合 。 这 个 列表 的 每 一 项 是 数据 框 中 的 一 列 ， 并 用 创建 时 间 〈 仅 用 时 间 ， 
而 不 用 日 期 ) 索引 。 用 前 面 介 绍 的 重 抽样 技术 来 聚合 1 小 时 区 间 段 内 发 布 的 所 有 帖子 ,然后 对 其 
频率 求 和 。 在 这 里 的 示例 中 ， 我 们 只 考虑 了 互动 的 总 次 数 ， 也 可 以 画 出 单独 的 统计 指标 。 


这 幅 图 表明 ， 最 多 的 互动 次 数 分 布 在 08:00 和 09:00。 也 就 是 说 ， 在 这 种 聚合 下 ， 发 布 于 早 
上 8~10 点 间 的 帖子 会 获得 最 多 的 互动 次 数 。 


观察 数据 集 后 ， 我 们 发 现 早上 8~10 点 也 是 帖子 发 布 最 多 的 时 间 段 。 如 果 画 出 帖子 的 频率 ， 
可 以 观察 到 和 图 4.7 类 似 的 分 布 【这 个 留 给 你 作为 练习 ) 


这 里 的 关键 是 聚合 模式 ， 即 重 抽样 方法 中 的 how 属性 。 我 们 用 的 是 sum， 早 上 8~10 点 具有 
最 多 的 互动 次 数 似 乎 是 因为 有 更 多 的 帖子 可 以 互动 。 因 此 , 加 和 并 不 能 告诉 我 们 这 些 帖 子 是 否 成 
功 。 解 决 方案 很 简单 : 这 里 不 采用 how=' sum' ， 可 以 将 代码 修改 为 how= 'mean' ， 并 重新 运行 
代码 。 输 出 结果 如 图 4-8 所 示 。 
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图 4-8 互动 频率 ( 每 小 时 平均 聚合 ) 


图 4-8 展示 了 互动 的 平均 次 数 的 分 布 ， 以 每 小 时 的 间隔 聚合 。 在 这 幅 图 中 ,早上 8~10 点 看 
起 来 并 不 像 前 面 那 样 成 功 。 最 多 的 互动 频率 集中 在 凌晨 1 点 和 早上 5 点 ,分 别 有 两 个 峰值 。 


这 个 简单 的 练习 表明 , 用 不 同 的 方法 聚合 数据 可 以 得 到 同一 个 问题 的 不 同 答案 .进一步 来 说 ， 
需要 特别 注意 的 是 ， 我 们 用 的 是 同一 批 数 据 。 首 先 ， 我 们 没有 关于 有 多 少 人 喜欢 PacktPub 页 面 
的 历史 信息 ， 即 有 多 少 人 在 其 新 闻 订 阅 中 看 到 PacktPub 的 帖子 。 如 果 很 多 人 只 是 最 近 才 关 注 这 
个 页 面 ,那么 他 们 与 较 早 帖子 互动 的 可 能 性 就 不 大 ， 因 此 统计 是 偏向 新 帖子 的 。 其 次 ,我 们 并 没 
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有 关于 人 口 统计 的 信息 ,也 没有 用 户 的 地 理 信息 : 凌晨 1~5 点 看 起 来 有 些 奇 怪 , 但 正如 前 面 提 过 
的 ， 生 成 时 间 被 归 一 化 为 UTC 时 区 。 换 句 话说， 凌晨 1~5 点 对 应 的 是 印度 的 上 午 或 者 美国 西海 
岸 的 傍晚 或 夜晚 。 

如 果 有 关于 用 户 的 相关 人 口 统计 信息 , 就 可 以 更 好 地 理解 发 布 帖子 的 最 佳 时 间 。 例 如， 如 果 
大 多 数 用 户 位 于 美国 西海 岸 ， 并 且 喜 欢 在 傍晚 (根据 他 们 的 时 区 ) 互动 , 那么 将 帖子 的 发 布 时 间 
安排 在 UTC 凌晨 1 点 比较 合适 。 












































4.3.3 用 词 云 可 视 化 帖子 
分 析 完 互动 后 ， 我 们 将 注意 力 转移 到 帖子 的 内 容 。 
词 云 (或 标签 云 ) 是 文本 数据 的 可 视 化 表示 。 每 个 单词 的 重要 程度 由 其 在 图 中 的 大 小 表示 。 


本 闻 将 用 Python 的 wordcloud 包 生 成 词 云 。 首 先 需 要 用 以 下 命令 在 虚拟 环境 中 安装 这 个 库 
及 其 依赖 。 


$ pip install wordcloud 
$ pip install Pillow 


Pillow 是 Python Imaging Library ( PIL ) 项 目的 分 支 , 而 PIL 已 经 不 再 使 用 了 。 除了 继承 PIL 
的 功能 ，Pillow 还 支持 Python 3， 简 单 安装 之 后 就 可 以 使 用 了 。 


以 下 脚本 首先 读 取 存储 PacktPub 帖子 内 容 的 .jsonl 文件 ， 然 后 创建 一 个 词 云 的 .png 图 片 。 






































# Chap04/facebook_ posts_wordcloud.py 
import os 

import json 

from argparse import ArgumentParser 
import matplotlib.pyplot as plt 

from nltk.corpus import stopwords 
from wordcloud import WordCloud 


def get_parser(): 
parser = ArgumentParser() 
parser.add_ argument ('--page') 
return parser 


生生 name == '_ main 
parser = get_parser() 
args = parser.parse_args() 





fname = "posts_{}.jsonl".format (args .page) 


all Posts = [| 
with open(fname) as f: 
for line in f: 
post = json.loads (line) 
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all_posts.append(post.get('message', '')) 


text. ee -TOLL(aLlL DOSste) 
stop_list = ['save', 'free', 'today', 
yet sy: "title EitLee ADIity. CL 


stop_list.extend(stopwords.words('english')) 

wordcloud = WordCloud (stopwords=stop_list) .generate (text) 
plt.imshow (wordcloud) 

blit -axis ("Gff") 
plt.savefig('wordcloud_{}.png'.format (args.page)) 


和 前 面 一 样 ， 该 脚本 用 ArgumentParser 类 的 一 个 实例 设置 命令 行 参数 ( 即 页 面 名 称 或 页 
面 ID )。 


首先 ， 脚 本 创建 了 一 个 列表 all_posts 来 存储 所 有 帖子 的 信息 。 之 所 以 用 post .get 























('message'，' ') 而 不 是 直接 查询 Python 字典 的 值 ， 是 因为 有 的 帖子 中 可 能 不 存在 message 
键 ( 例如， 一 些 图 像 没 有 评论 内 容 )， 虽 然 这 种 情况 非常 少见 ， 但 仍然 需要 注意 。 





接着 脚本 将 帖子 列表 合并 成 字符 串 text ,以 作为 生成 词 云 的 主要 输入 数据 。woracloug 对 
象 接收 一 些 可 选 参 数 来 定义 词 云 的 样式 。 尤 其 值得 注意 的 是 ， 这 个 示例 用 stopworgs 参数 定义 
词 云 会 过 滤 的 一 组 停 用 词 。 这 里 我 们 采用 NLTK 库 中 的 常用 英语 停 用 词 表 以 及 一 些 自 定义 的 关键 
词 ， 后 者 常用 于 PacktPub 账户 信息 且 没 有 实际 意义 ( 如 bitly 和 对 特定 标题 的 引用 )。 


输出 图 像 如 图 4-9 所 示 。 
































ythonb 


Vawel=TeM, 








图 4-9 词 云 的 示例 


以 上 图 像 展示 了 Packt 出 版 社 的 一 些 产品 ( 纸 质 书 、 电 子 书 和 视频 ) 及 其 出 版 物 中 讨论 的 一 
些 主要 技术 (如 Python、JavaScript、R、Arduino、 游 戏 开 发 等 )， 主 要 关键 词 是 数据 。 
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4.4 小 结 

















本 章 介 绍 了 一 些 用 于 Facebook 的 数据 挖掘 应 用 ， 而 Facebook 是 社会 媒体 领域 的 一 大 巨头 。 


介绍 完 Facebook Graph API 及 其 演进 ， 以 及 数据 挖掘 的 概念 后 ， 我 们 创建 了 一 个 用 于 与 
Facebook 平 台 交 互 的 Facebook 应 用 。 


本 章 介绍 的 数据 挖掘 应 用 与 鉴 权 用 户 的 资料 和 Facebook 页 面相 关 。 我 们 探讨 了 如 何 计算 数 
值 , 这 些 数值 与 鉴 权 用 户 的 发 布 习 惯 和 用 户 关注 给 定 页 面 的 交互 习惯 有 关 。 通过 简单 的 聚合 和 可 
视 化 技术 ,可 以 用 较 少 的 代码 实现 这 种 分 析 。 最 后 ,我 们 介绍 了 如 何 用 词 云 对 重要 的 关键 词 进 行 
可 视 化 表示 ， 以 突出 一 组 已 发 布 帖子 的 重要 主题 。 


下 一 章 将 重点 介绍 Google+， 它 是 最 近 出 现 的 一 个 社交 网 络 ， 由 Google 开发 。 























Google+ 话 题 分 析 











本 章 主要 介绍 Google+ ( 有 时 也 称 作 Google Plus 或 G+ )， 它 是 社会 媒体 圈 的 新 兴 巨 头 。 
Google+ 于 2011 年 面世 , 被 描述 为 “架构 在 所 有 Google 服务 之 上 的 社交 层 ”。 它 的 用 户 增长 迅速 ， 
发 布 两 个 星期 就 获得 了 1000 万 用 户 。 经 过 多 次 重新 设计 后 , Google 于 2015 年 年 底 发 布 了 关注 社 
区 和 集合 的 新 版 Google+， 将 服务 推 向 基于 兴趣 的 网 络 。 


本 章 将 介绍 以 下 主题 : 





5.1 Google+ 








口 如 何在 Python 的 帮助 下 与 Google+ API 互动 

口 如 何在 Google+ 中 搜索 人 或 者 页 面 

如 何 用 Web 框架 Flask 在 Web GUI 中 可 视 化 搜索 结 5 
口 如 何 从 用 户 的 发 帖 内 容 中 抽取 出 有 意义 的 关键 词 








API 入 门 


Google+ API 是 Google+ 的 一 个 编程 接口 。 该 API 可 用 于 将 应 用 或 网 站 与 Google+ 整 合 起 来 ， 
与 前 面 介绍 的 Twitter 和 Facebook 的 情况 类 似 。 本 节 将 介绍 注册 应 用 的 过 程 ， 以 及 Google+ API 


入门 。 


如 果 还 没有 注册 过 Google 账户 ,那么 需要 先 注 册 一 个 。 虽 然 Google 提供 了 多 种 服务 ( 如 
Gmail、Blogger 等 )， 但 其 账户 管理 是 集中 式 的 。 也 就 是 说 ， 如 果 你 是 其 中 一 种 服务 的 用 户 ， 那 
么 就 可 以 快速 地 在 Google+ 中 建立 账户 。 






































注册 并 登录 后 ,你 看 到 的 是 Google 开发 者 控制 台 。 可 以 从 该 控制 台 创 建 我 们 的 第 一 个 项 目 。 
图 5-1 展示 了 项 目 创建 对 话 框 ， 我 们 只 需要 指定 项 目的 名 称 。 
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New project 
The Google Developers Console uses projects to manage resources. 
Project name 

Social Media Mining 


Your project ID will be social-media-mining Edit 


Show advanced options... 


Please email me updates regarding feature announcements, performance 
suggestions, feedback surveys and special offers. 


Yes '® No 


1 agree that my use of any services and related APls is subject to my compliance with 
the applicable Terms of Service. 


® Yes No 











图 5-1 在 Google 开 发 者 控制 台中 创建 项 目 


创建 好 项 目 后 ， 需 要 启用 Google+ API。 在 项 目的 面板 中 ，Use Google APls 组 件 允 许 我 们 
管理 API 接 和 人， 创建 新 的 用 户 任 证， 等 等 。 正 如 一 个 Google 账户 可 用 于 获取 多 种 Google 服务 ， 
一 个 项 目 可 以 使 用 多 个 API, 只 要 这 些 API 为 启用 状态 。 当 在 Social APls 组 下 定位 到 Google+ APIT 
时 ， 我 们 可 以 单 击 鼠标 来 启动 它 。 图 5-2 展示 了 概览 。 








Overview 


全 Enable API 


Google+ API 


The Google+ APl enables developers to build on top of the Google+ platform. 
Learn more 
Try this APlI in APls Explorer 


























图 5-2 ”为 我 们 的 项 目 启用 Google+ API 











启动 API 后， 系统 会 提醒 我 们 ， 需 要 凭证 信息 才能 使 用 该 API， 如 图 5-3 所 示 。 
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4 Disable API 
Google+ API 


This APl is enabled, but you can't use it in your project until you create credentials. Goto credentials 
Click "Go to Credentials" to do this now (strongly recommended). 


Overview Usage Quotas 





The Google+ API enables developers to build on top of the Google+ platform. 
Learn more 
Try this API in APls Explorer 














图 5-3 ”启动 API 后 需要 设置 凭证 








很 容易 在 左 侧 边栏 菜单 中 找到 Credentials 标签 。 和 凭证 有 三 种 : APIkey、OAuth clientID 和 
Service account key (用 Google Cloud API 进行 服务 端 到 服务 端的 交互 时 ， 才 需要 使 用 Service 
account key )。 


简单 的 API 访 问 需要 API key， 也 就 是 说 ， 这 种 API 调用 不 会 获取 任何 私有 用 户 数据 。 这 个 
密 钥 启用 应 用 级 鉴 权 , 主要 用 于 统计 项 目的 使 用 情况 (后 文 将 介绍 有 关 接 口 访问 频率 限制 的 更 多 
细节 )。 


OAuth client ID 用 于 需要 授权 的 API 访 问 ， 即 需要 获取 私有 用 户 数据 的 API 调用。 但 在 调用 
前 ， 访 问 私 有 数据 的 用 户 必 须 向 你 的 应 用 授权 。 不 同 的 Google API 声明 了 不 同 的 使 用 范围 ， 也 
就 是 必须 获得 用 户 许可 才能 执行 的 操作 。 


如 果 不 太 确定 你 的 应 用 需要 何 种 赁 证， 面板 中 还 提供 了 Help me choose 选项 ( 如 图 5-4 所 
示 ), 通过 一 些 简单 的 问题 帮助 你 选择 , 这些 问 题 有 助 于 你 明白 自己 的 应 用 需要 什么 级 别 的 权限 。 





























API API Manager Credentials 
他 Overview Credentials ”OAuth consent screen Domain verification 
or Credentials 
API key 


ldentifies your project using a simple API key to check quota and access 
For APls like Google Translate. 


OAuth client ID 
Requests user consent so that your app can access the user's data 
For APls like Google Calendar 


Service account key 
Enables server-to-server, app-level authentication using robot accounts. 
For use with Google Cloud APls 


Help me choose 
Asks a few questions to help you decide which type of credential to use. 


Create credentials ~ 

















图 5-4 选择 API 访 问 和 凭证 类 型 的 下 拉 菜 单 
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创建 好 项 目 并 获得 需要 的 访问 密 钥 后 ， 我 们 来 看 看 如 何以 编程 的 方式 访问 Google+ API。 
Google 为 Google API 提供 了 一 个 官方 的 Python 客户 端 ,可 以 用 pip 在 我 们 的 虚拟 环境 中 安装 。 





$ pip install google-api-python-client 


可 以 在 googleapiclient 包 (别名 apiclient ) 中 调用 该 客户 端 。 下 面 将 介绍 用 于 测试 
API 使 用 情况 的 第 一 个 示例 。 





在 Google+ 中 搜索 
gplus_search_example.py 脚本 中 显示 的 第 一 个 示例 查询 用 于 搜索 人 和 页 面 的 Googlet+ API。 


这 个 示例 假设 你 已 经 在 项 目 面板 的 凭证 页 面 中 创建 了 可 以 进行 简单 访问 的 API 密 钥 ,现在 还 
不 需要 获取 私有 用 户 数据 。 与 我 们 在 Twitter 和 Facebook 中 的 做 法 类 似 , 将 凭证 存储 为 环境 变量 。 
例如 ， 如 果 使 用 Bash 命令 行 ， 可 以 输入 以 下 命令 。 





























$ export GOOGLE API KEY="your-api-key-here" 
也 可 以 在 一 个 shell 脚本 中 包含 export 命令 。 


# Chap05/gplus_search example.py 
import os 

import json 

from argparse import ArgumentParser 
from apiclient.discovery import build 


def get_parser(): 
parser = ArgumentParser() 
parser-add. argument (==query", Targs=*'") 
return parser 


if name Se 2 ma 
api_key = os.environ.get ('GOOGLE API_KEY') 
parser = get_parser() 
args = parser.parse_args() 





service = build('plus', 
We 


developerKey=api_key) 


people_feed = service.people() 
search query = people_feed.search (query=args .query) 
search results = search query.execute!() 


print (json.dumps (search results, indent=4)) 


该 脚本 用 ArgumentParser 的 一 个 实例 从 命令 行 读 取 查询 字符 串 。 例 如 ， 如 果 想 要 查询 
packt, 可 以 运行 以 下 脚本 。 





S.1 Google+API 入门 119 





$ Python gplus_ search example.py --query packt 


解析 恬 的 --query 参数 定义 了 nargs=" 天: 二 





属性 ， 这 样 可 以 查询 多 项 。 


使 用 API 的 起 点 是 先 用 buila() 函数 创建 一 个 service 对 象 ,我 们 从 Google API 客户 端 导 


和 人 服务 构建 器 ， 它 将 以 我 们 想 要 交互 的 服务 的 名 称 (plus ) 和 API 的 版 本 (v1 ) 为 强制 参数 ， 
再 加 上 前 面 定义 的 API 密 钥 developerKey。 


支持 的 API 及 其 最 新 版 本 参见 文档 (https:/developers.google.comyapi-client-library/ 
python/apis/ )。 


通常 情况 下 ， 可 以 用 以 下 方式 使 用 服务 构建 器 。 





from apiclient.discovery import build 


service = build('api name', 'api_version', [extra params]) 














一 旦 创建 完成 ，service 对 象 可 以 提供 各 种 资源 ( 分 组 为 集合 ) 的 访问 。 这 个 示例 查询 的 


是 people 集合 。 





构建 并 执行 搜索 查询 后 ， 该 脚本 将 JSON 输出 到 屏幕 ， 这 样 我 们 就 可 以 理解 这 种 格式 。 
{ 


"nextPageToken": "token-string", 
"selfLink": "link-to-this-request", 
"title": "Google+ People Search Results", 
"etag": "etag-string", 
"kind": "plus#peopleFeed", 
"items": [ 
{ 

"kind": "plus#person", 

"objectType": "page", 

"image": { 





"rl "Url-to-inade" 


}, 
加 “TL232:8881995L25817822.", 


"etag": "etag-string", 
"displayName": "Packt Publishing", 
TH 


"https://plus.google.com/+packtpublishing" 





出 于 简洁 的 目的 , 我 们 简化 了 以 上 输出 , 但 大 体 结 构 还 是 清楚 的 。 第 一 层 的 属性 (如 title、 
selfLink 等 ) 定义 了 结果 集合 的 一 些 特性 。 结 果 列 表 包 含 在 items 列表 中 。 每 一 项 由 id 属性 
唯一 标识 ， 并 由 各 自 的 url 表示 。 这 个 示例 展示 的 结果 可 包含 objectType 属性 中 定义 的 页 面 
和 人 。displayName 属性 由 用 户 (或 页 面 管理 者 ) 选择 ,是 通常 显示 在 相应 的 Google+ 页 面 中 。 
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5.2 在 Web GUI 中 骨 入 搜索 结果 


本 节 将 扩展 第 一 个 示例 ， 以 便 对 搜索 结果 进行 可 视 化 。 为 了 展示 各 项 , 我 们 将 用 一 个 自动 动 
态 生 成 的 网 页 ,以 使 用 熟悉 的 接口 将 资料 图 片 显示 在 每 个 人 或 页 面 的 显示 名 称 旁 边 。 这样 的 可 视 
化 可 以 帮助 我 们 区 别 具 有 相同 显示 名 称 的 不 同 结 


为 了 实现 这 个 目标 , 我 们 将 介绍 用 于 Web 开发 的 微 框 架 Flask, 它 可 以 帮助 我 们 快速 生成 一 
个 Web 界面 。 


广义 上 说 ，Python 和 Web 开发 是 共同 发 展 的 ， 与 Web 相关 的 几 个 Python 库 已 问世 多 年 ， 达 
到 了 一 定 的 成 熟 度 。 与 其 他 框架 相 比 ，Flask 非常 年 轻 ， 但 也 达到 了 一 定 的 成 熟 度 ， 而 且 被 广大 
社区 采用 。 由 于 Web 开发 并 非 本 书 重点 ,我 们 采用 Flask 主要 是 看 重 其 微 的 特性 ， 即 不 对 应 用 结 
构 做 出 假设 ， 并 且 使 用 少量 代码 就 可 以 轻松 实现 Web 开发 。 

Flask 的 一 些 特征 如 下 : 
口 开发 服务 器 和 调试 器 
口 整合 了 对 单元 测试 的 支持 
口 支持 使 用 Jinja2 库 的 模板 
口 基于 Unicode 
口 具有 适用 于 各 种 场景 的 大 量 扩展 


可 以 通过 以 下 命令 用 pip 安装 Flask。 
















































































$ pip install flask 

以 上 命令 将 安装 微 框架 和 相关 的 依赖 。 

如 果 感 兴趣 ， 可 以 在 Packt 出 版 社 找到 很 多 介绍 Flask 的 图 书 来 进一步 学 习 。 例 如 ，Matt 
Copperwaite 和 Charles Leifer 撰写 的 Learning Flask Framework 以 及 Jack Stouffer 撰写 的 《深入 


理解 Flask》 都 介绍 了 Flask 的 很 多 高 级 用 法 。 本 章 不 会 过 多 介绍 Flask, 以 下 是 使 用 Flask 的 一 个 
示例 。 





# Chap05/gplus_search web gui.py 
import os 

import json 

from flask import Flask 

from flask import request 

from flask import render template 
from apiclient.discovery import build 


app = Flask(_ name_  ) 
api_key = os.environ.get ('GOOGLE API_KEY') 


@app.route('/') 
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def index(): 
return render_ template('search form.html') 


@Qapp.route('/search', methods=['POST']) 
def search(): 
duery = request.form.get ('query') 
if not query: 
# 如 果 未 给 出 查询 语句， 则 显示 错误 消息 


message = 'Please enter a search query!' 
return render_ template('search_ form.html', message=message) 
else: 
# 搜索 
service = build('plus', 
yl 


developerKey=api_key) 


people_feed = service.people!() 

search query = people_feed.search (query=query) 

search results = search query .execute!() 

return render_ template('search results.html', 
query=query, 
results=search_ results['items']) 


if marme == ' main 
app.run(debug=True) 


gplus_search_web_gui .py 脚本 用 Flask 实现 了 一 个 基本 的 Web 应 用 ， 展 示 了 一 个 查询 
Google+ API 的 简单 表单 ， 并 显示 了 结果 。 


该 应 用 是 Flask 类 的 一 个 简单 实例 ， 其 主 函 数 是 用 于 启动 Web 服务 器 的 run () 函数 (我 们 
将 在 调试 模式 中 运行 ， 以 简化 调试 过 程 )。 

Web 应 用 的 行为 由 其 路 由 定义 。 也 就 是 说 ， 当 执行 一 个 特定 URL 请 求 时 ，Flask 会 将 该 请 求 
分 发 到 相应 的 代码 段 ， 然 后 生成 响应 。 在 Flask 中 ， 路 由 是 简单 的 装饰 函数 。 





























5.2.1 Python 的 装饰 器 


虽然 在 Python 中 使 用 装饰 器 非常 简单 ， 但 如 果 你 没有 接触 过 装饰 器 这 个 概念 ， 理 解 起 来 还 
是 会 有 些 困难 。 

装饰 需 就 是 一 个 男 数 , 可 作为 另 一 个 图 数 的 封装 需 来 丰富 它 的 行为 。 这 种 行为 的 改变 是 动态 
的 ， 因 为 并 不 需要 对 目标 函数 代码 进行 任何 改变 ， 也 不 需要 使 用 子 类 。 这 样 ， 就 可 以 在 不 对 现 有 
代码 引入 任何 复杂 性 的 前 提 下 改进 特定 功能 。 

总 的 来 说 ， 装 饰 器 是 一 种 强大 而 优雅 的 工具 ， 在 很 多 场景 中 都 非常 实用 。 

在 前 面 的 示例 中 ，index() 和 search () 都 是 装饰 函数 ， 且 装饰 器 是 app .route ()。 该 装 
饰 器 紧 接 在 目标 函数 前 调用 ， 并 以 @ 符 号 作为 前 级 。 
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5.2.2 ”Flask 路 由 和 模板 


apb.zroute() 装 饰 器 以 我 们 要 访问 资源 的 相对 URL 为 第 一 个 参数 。 第 二 个 参数 是 特定 URL 
支持 的 HTTP 方法 列表 。 如 果 没 有 给 出 第 二 个 参数 ， 那 么 默认 是 GET 方法 。 
index () 函数 用 于 展示 进入 页 面 ， 该 页 面包 含 搜索 表单 ， 用 相对 URL /表示 。 该 函数 所 做 的 
就 是 通过 render_template() 函数 返回 存储 在 search_form.html 模板 中 的 网 页 。 


由 于 Flask 使 用 的 是 Jinja2 模板 库 ，render_template () 函数 读 取 存 储 在 HTML 文件 中 的 
代码 ， 应 用 模板 指令 ， 并 返回 最 终 的 HTML 页 面 作为 输出 。 


这 里 我 们 不 过 多 介绍 细节 ,如 果 感 兴趣 ， 可 以 在 官方 文档 中 查看 更 多 精彩 内 容 。 使 用 模板 库 
的 目的 是 介绍 一 个 肯 入 网 页 的 特殊 语法 ， 可 以 解析 该 网 页 来 动态 生成 HTML。 















































templates/search form.html 源 文件 存放 在 Python 运行 Flask ( 示例 中 是 gplus_search web_ 
gui .py 脚本 ) 的 相同 路 径 中 ， 该 HTML 文件 的 内 容 如 下 所 示 。 


<html> 
<body> 


{$ if message %} 
<p>{{ message }}</p> 
{%$ endif %} 


<form action="/search" method="post"> 

Search for: 

<input type="text" name="query" /> 

<input type="submit" name="submit" value="Search!" /> 
</form> 


</body> 
</html> 


上 述 源 文件 包含 一 个 带 有 表单 的 基本 网 页 (为 了 简洁 进行 了 简化 )。 该 页 面 的 唯一 模板 指令 
是 if 模块 ， 该 模块 检查 message 变量 ;如果 存 在 ， 就 将 其 显示 出 来 。 


用 POST 方法 将 表单 动作 设置 为 相对 URL /search。 这 是 gplus_search web_gui.py 文件 中 的 第 
二 个 装饰 器 函数 search ( ) 的 配置 。 


search () 了 水 数 是 与 Google+ API 进行 交互 的 地 方 。 首 先 ， 该 函数 期 望 一 个 query 参数 通过 
表单 传递 进来 。 可 以 通过 request . form 字典 获取 该 参数 。 


Flask 中 的 全 局 request 对 象 用 于 获取 传 入 的 请 求 数据 ,request .form 字 典 用 于 获取 数据 ， 
而 数据 是 用 POST 方法 通过 一 个 表单 传递 的 。 


如 果 没 有 给 出 查询 ,那么 search() 函数 将 再 次 显示 搜索 表单 ， 并 给 出 一 个 错误 消息 。 
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render_template() 函数 读 入 一 些 关 键 字 参数 ， 并 将 它们 传递 给 模板 ,我们 的 示例 中 只 有 一 个 
参数 message。 


另 一 方面 ， 如 果 给 出 了 查询 ，search () 函数 将 与 Google+ API 交互 ， 并 将 交互 结果 传递 给 
search_results.html 模板 。templates/search results.html 的 源 文件 如 下 所 示 。 

















<html> 
<link rel="stylesheet" 
href="{{ url_for('static', filename='style.css') }}" /> 
<body> 


Searching for <strong>{{ query }}</strong>: 


%$ for item in results %} 
<div class="{{ loop.cycle('row_odd', 'row_even’') }}"> 
<a href="{{ item.url }}">{{ item.displayName }}</a> 
({{ item.objectType}})<br /> 
<a href="{{ item.url }}"> 
<img src="{{ item.image.url }}" /> 
</a> 


</div> 


当 endfor %} 
<p><a href="/">New search</a></p> 


</body> 
</html> 
整 段 代码 的 核心 是 一 个 迭代 结果 列表 的 for 循环 。 列 表 中 的 每 一 项 都 显示 了 一 个 <aiv> 元 素 
及 其 内 容 信息 。 我 们 注意 到 ， 打 印 特定 变量 值 的 语法 由 一 对 花 括 号 构成 ， 例 如 ，{{ itenm. 
displayName }} 会 打印 每 项 的 显示 名 称 。 男 一 方面 ， 控 制 流 包含 在 一 对 {%$ 和 %} 符 号 中 。 


这 个 示例 还 将 CSS 整合 到 HTML 文件 中 ， 这些 CSS 用 于 个 性 化 设置 结果 页 面 的 外 观 。 
loop.cycle() 函数 用 于 在 字符 串 列 表 或 变量 列表 中 进行 循环 , 这 里 它 将 不 同 的 CSS 类 分 配给 结 
果 中 的 <aiv> 代 码 块 。 这 样 一 来 ， 就 可 以 用 不 同 的 颜色 高 亮 显示 不 同 的 行 。 此 外 ，ur1l_for () 
函数 用 于 为 特定 的 资源 提供 URL。 与 templates 文件 夹 类 似 ，static 文件 夹 也 必须 与 运行 Flask 应 
用 的 gplus_search web_gui.py 文件 放 在 同一 个 文件 夹 中 。 它 用 于 提供 静态 文件 ， 如 图 像 或 CSS 
定义 。static/style.css 文件 包含 用 于 搜索 结果 页 面 的 CSS 的 定义 ， 如 下 所 示 。 

.row_odd { 

background-color: #eaeaea; 
} 
.row_even { 


background-color: #fff; 
} 


虽然 Web 开发 与 数据 挖掘 并 非 密 切 相 关 , 但 它 提供 了 一 种 快速 构建 简单 UI 原型 的 方式 。 Web 
开发 的 主题 非常 广泛 ,本 童 不 做 详细 介绍 ,如 果 感 兴趣 ,你 可 以 进一步 深入 了 解 Web 开发 和 Flask。 
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可 以 用 以 下 命令 运行 上 面 的 示例 。 
$ python gplus_search web gui.py 


上 述 命令 运行 后 会 开启 Flask 应 用 ， 而 Flask 应 用 将 等 待 HTTP 请求， 以 提供 Python 代码 中 
定义 的 响应 。 运 行 脚本 后 ， 该 应 用 将 在 前 端 运行 ， 终 端 将 显示 以 下 输出 。 








* Running on http://127.0.0.1:5000/ (Press CTRL+C to quit) 


127.0.0.1 地 址 是 本 地 主机 ， 而 5000 端口 是 Flask 的 默认 端口 。 





Flask 服务 器 的 网 络 可 见 性 
如 果 在 虚拟 机 或 者 远程 主机 上 运行 Flask 应 用 ,那么 可 能 需要 该 机 器 的 网 络 地 址 ， 
而 不 是 本 地 主机 的 地 址 。 

人 此 外 ,你 还 需要 确保 该 服务 器 是 外 部 可 见 的 ,这 样 才 能 通过 网 络 路 由 到 该 服务 器 。 
当然 ， 这 会 带 来 安全 问题 ， 因 此 建议 你 先 考虑 是 否 信 任 你 的 网 络 用 户 。 
为 了 使 Flask 应 用 在 外 部 可 见 ， 你 可 以 停 用 调试 模式 或 者 捆绑 服务 器 和 特定 的 地 
址 ,如 app.run(host='0.0.0.0')。 这 里 的 0.0.0.0 意 味 着 本 机 的 所 有 地 址 。 


现在 我 们 可 以 打开 一 个 浏览 器 窗口 ， 输 入 http:/127.0.0.1:5000/， 如 图 5-5 所 示 。 








€ SC | D127.0.0.1:5000 





Search for: Search! | 














图 5-5 Flask 应 用 的 进入 页 再 














如 果 不 输入 任何 内 容 ， 直 接点 击 Search! 按 钮 ， 那 么 该 应 用 将 重新 展示 表单 ， 并 给 出 一 个 错 
误 消 息 ， 如 图 5-6 所 示 。 





对 CC |) 127.0.0.1:5000/search 





Please enter a search query! 


Search for: Search! 




















图 5-6 没有 给 出 查询 则 显示 错误 消息 














男 一 方面 ， 如 果 给 出 正确 的 查询 ， 结 果 页 面 将 如 图 5-7 所 示 《〈 图 中 的 查询 是 packt )。 
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© CC | 127.0.0.1:5000/search 





Searching for packt: 
Packt Publishing (page) 


[PACKT] 


Packt Video (page) 






Packt Authors (page) 














图 5-7 在 Google+ API 中 搜索 的 结果 














正如 我 们 看 到 的 , 每 项 都 在 自己 的 显示 块 中 显示 , 并 且 每 个 显示 块 带 有 不 同 的 颜色 及 相应 项 
的 信息 。 项 的 名 称 在 锚 定 标签 ( <a> ) 中 表示 。 这 样 一 来 ， 这 些 项 就 是 可 点 击 的 ， 并 可 以 链接 到 
相关 的 Google+ 页 面 。 











5.3 Google+ 页 面 的 笔记 和 活动 


搜索 Google+ 页 面 并 在 Web GUI 中 可 视 化 结果 后 ,我 们 将 下 载 给 定 页 面 的 活动 列表 。Google+ 
中 的 活动 等 同 于 Facebook 中 的 帖子 。 默 认 情 况 下 ， 一 个 活动 可 以 当 作 一 个 笔记 ， 即 在 Google+ 
上 分 享 的 一 段 文字 。 

以 下 脚本 gplus_get_page_activities.py 用 于 从 一 个 Google+ 页 面 搜集 活动 列表 。 








# Chap05/gplus_get_page activities.py 
import os 

import json 

from argparse import ArgumentParser 
from apiclient.discovery import build 


def get_ parser(): 
parser = ArgumentParser () 
parser.add_ argument ('--page') 
parser.add argument ('--max-results', type=int, default=100) 
return parser 


if name., == '_ main 
api_key = os.environ.get ('GOOGLE API_KEY') 
parser = get_parser() 
args = parser.parse_args() 
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service = build('plus', 
DT 


developerKey=api_key) 


activity_feed = service.activities() 
activity_query = activity_feed.list( 
collection='public', 
userId=args.page, 
maxResults='100' 
) 
fname = 'activities_{}.jsonl'.format (args .page) 
with open(fname, 'w') as 工 : 
retrieved results = 0 
while activity_query and retrieved results < args.max_results : 
activity_results = activity_query .execute!() 
retrieved results += len(activity_results['items']) 
for item in activity_results['items']: 
f.write(json.dumps (item)+"\n") 
activity_query = service.activities().list next (activity_query, 
activity_results) 


该 脚本 用 ArgumentParser 从 命令 行 获取 一 些 输入 参数 。--page 选项 是 必需 的 ， 因 为 它 
包含 了 我 们 寻找 的 页 面 或 用 户 的 ID， 既 可 以 是 页 面 的 数值 ID ， 也 可 以 是 Google+ 句 柄 〈 例如， 
+packtpublishing 就 是 Packt 出 版 社 的 G+ 页 面 )。 男 一 个 参数 是 我 们 想 要 检索 的 结果 ( 即 活动 ) 
的 最 大 数量 。 该 参数 是 可 选 的 ， 并 且 默 认为 100。 


可 以 用 以 下 方式 运行 该 脚本 。 


















































$ python gplus_ get page activities.py --page +packtpublishing 
--max-results 1000 


几 秒 后 ， 我 们 将 在 activities_+packtpublishing.jsonl 文件 中 看 到 JSON 格式 的 活动 列表 。 与 使 
用 Twitter 和 Facebook API 生 成 的 文件 一 样 ， 该 文件 也 是 JSON Lines 格式 的 ， 即 文件 的 每 一 行 都 
是 一 个 有 效 的 JSON 文 档 。 


FF 




















单个 活动 的 详细 描述 可 以 查看 文档 ( https://developers.google.com/+/web/api/rest/latest/ 
activities#resource )。 下 面 列 出 了 最 重要 的 字段 。 








口 kind: 项 的 类 型 ( 即 plus#activity ) 

DQ etag: 实体 标签 字符 串 

Dtitle: 活动 的 短 标题 

口 verp: 一 次 发 布 或 分 享 

口 actor: 一 个 对 象 ， 表 示 分 享 或 发 布 活动 的 用 户 
D published: ISO 8601 格式 的 发 布 日 期 

口 updated: ISO 8601 格式 的 最 新 更 新 日 期 





5.4 笔记 的 文本 分 析 和 TF-IDF 计算 127 








口 ia: 活动 的 唯一 标识 符 

口 ur1: 活动 的 URL 

口 object: 包含 活动 所 有 信息 的 一 个 复杂 对 象 ， 其 中 包括 活动 的 内 容 、 原 始 发 布 者 (如果 
活动 是 分 享 ， 那 么 发 布 者 与 分 享 者 不 是 同一 个 人 ) 、 回 复 的 信息 、 分 享 和 +1、 附 件 列表 
和 相关 细节 ( 如 图 像 信息 ) ， 还 可 能 包含 地 理 位 置信 息 


对 象 的 描述 引入 了 +1 的 概念 ， 它 与 Facebook 的 喜欢 按钮 功能 类 似 。 当 用 户 喜 欢 Google+ 上 
的 某 条 内 容 时 ， 可 以 点 击 +1 按钮 。+1 按钮 允许 用 户 分 享 Google+ 上 的 内 容 ， 并 且 会 推荐 Google 
搜索 上 的 相应 内 容 。 可 以 在 JSON 文档 的 plusoners 键 中 找到 特定 对 象 的 +1 内 容 的 详情 。 
plusoners.totalItems 包含 +1 动作 的 数量 , 而 plusoners.selfLink 包含 到 +1 列表 的 一 个 
API 链 接 。 类 似 地 ，replies 和 resharers 包含 直接 评论 和 分 享 。 


查看 下 载 活动 列表 的 代码 的 逻辑 ,我 们 可 以 看 到 ,起 点 仍然 是 通过 apiclient .discovery. 
build() 函数 构建 服务 对 象 。 接 下 来 将 活动 集合 存储 在 activity_feed 对 象 中 。 为 了 查询 
activity_feed 对 象 ， 我们 将 使 用 它 的 1ist () 函数 而 不 是 search () 函数 ， 因 为 要 检索 完整 
的 活动 列表 ( 至 少 是 可 获得 结果 的 最 大 数量 )。 该 函数 需要 两 个 强制 参数 : collection 和 
userId， 其 中 collection 只 接受 public 作为 值 ，userId 参数 是 我 们 正在 检索 的 活动 所 属 
的 用 户 或 页 面 的 标识 符 。 该 参数 可 以 是 唯一 数值 标识 符 或 Google+ 句 柄 字符 串 。 可 以 将 
axResults 作为 一 个 可 选 参数 , 在 示例 中 设置 为 100。 这 是 通过 一 个 API 调 用 能 够 检索 的 项 的 
最 大 数量 ( 默认 为 20， 最 大 为 100 )。 


上 述 代码 还 展示 了 如 何 用 这 个 API 翻 页 。 查 询 是 在 while 循环 中 执行 的 ， 它 会 更 新 检索 结 
果 的 计数 器 (循环 +1 至 --max-results 指定 的 值 )， 并 检查 下 一 个 页 面 的 结果 是 否 存在 。 
list_next () 函数 以 当前 查询 和 结果 的 当前 列表 为 参数 ， 通 过 更 新 查询 对 象 进行 翻 页 。 如 果 下 
一 个 结果 页 面 不 存在 〈 即 用 户 或 页 面 只 发 布 了 当前 我 们 已 经 检索 到 的 这 些 帖子 )， 则 该 函数 会 返 


回 Noneo 
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探讨 完 如 何 下 载 特定 页 面 或 用 户 的 笔记 列表 和 活动 列表 后 , 我 们 将 关注 点 转移 到 内 容 的 文本 
分 析 。 


我 们 想 要 从 给 定 用 户 发 布 的 每 条 帖子 中 抽取 有 意义 的 关键 词 , 以 便 对 帖子 本 身 做 摘要 或 总 结 。 


虽然 直觉 上 这 是 一 个 简单 的 任务 ,但 还 需要 考虑 一 些 细微 之 处 。 实 际 上 ，, 我 们 可 以 发 现 每 条 
帖子 的 内 容 并 不 总 是 一 段 干净 的 文本 ， 其 中 可 能 包含 HTML 标签 。 在 计算 之 前 ， 我 们 需要 抽取 
出 干净 的 文本 。 虽 然 Google+ API 返回 的 JSON 对 象 具有 清晰 的 结构 ， 但 内 容 本 身 并 不 是 结构 清 
晰 的 文档 。 好 在 有 一 个 非常 好 的 Python 包 可 以 帮忙 。Beautiful Soup 可 以 解析 HIML 和 XML 文 
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档 ， 也 可 以 解析 一 些 畸 形 的 标记 。 它 是 兼容 Python 3 的 ， 可 以 通过 CheeseShop 安装 。 在 我 们 的 
虚拟 环境 中 ， 使 用 以 下 命令 安装 Beautiful Soup。 


$ pip install beautifulsoup4 


以 上 命令 会 安装 4.* 版 本 。Beautiful Soup 从 版 本 3.* 到 版 本 4.* 经 历 了 一 些 重大 调整 ， 因 此 本 
书 中 的 部 分 示例 可 能 不 兼容 该 库 的 老 版 本 。 


下 一 个 重要 问题 是 ， 如 何 定义 一 个 关键 词 的 重要 程度 ? 


可 以 从 不 同方 向 解决 该 问题 ， 而 重要 的 定义 也 会 根据 应 用 发 生变 化 。 这 里 ,我 们 将 使 用 基于 
统计 的 方法 ， 关 键 词 的 重要 程度 由 其 在 文档 和 文档 集合 中 的 出 现 频率 决定 。 


我 们 使 用 的 方法 叫 作 TF-IDF， 它 是 基于 频率 的 两 个 分 数值 ( TF 和 1IDF ) 的 组 合 。 在 第 3 章 
中 ， 我 们 通过 scikit-learn 库 提供 的 现成 实现 介绍 了 TF-IDF。 总 的 来 说 ， 使 用 现成 的 实现 是 一 个 
好 主意 ， 尤 其 是 在 其 来 自 scikit-learn 这 样 高 质量 的 库 时 。 本 节 ， 我 们 将 提出 一 个 自 定义 的 实现 ， 
这 样 就 可 以 展示 TF-IDF 的 详情 ， 以 便 你 更 好 地 理解 该 框架 。 

TF-IDF 背后 的 动机 非常 简单 : 如 果 一 个 单词 是 一 篇 文档 中 的 高 频 词 ， 但 在 所 有 文档 集合 中 
是 一 个 低频 词 , 那么 它 就 是 能 够 表示 该 文档 的 一 个 候选 。 这 两 个 性 质 通 过 两 个 分 数值 来 反映 : TF 
表示 一 个 词 在 一 篇 文档 中 出 现 的 频率 ，IDF 计算 整个 文档 集合 。 


1972 年 ，Karen Sparck-Jones 在 信息 检索 研究 中 提出 了 IDF， 他 是 该 领域 的 先锋 人 物 之 一 。 
作为 一 种 启发 式 方法 ，IDF 显示 了 指定 项 和 Zipf 定律 间 的 关系 。 











































































































Zipf 定律 和 Zipf 分 布 
Zipf 定律 是 一 个 经 验 定律 , 指 的 是 不 同 科学 领域 中 的 多 种 类 型 的 数据 都 可 以 近似 
为 Zipf ( 即 长 尾 ) 分 布 。 在 第 2 章 中 ， 我 们 观察 到 Packt 出 版 社 在 推 文中 使 用 的 
单词 遵循 该 分 布 。 有 关 Zipf 定律 的 更 多 细节 ， 参 见 第 2 章 。 

从 数学 的 角度 来 看 ， 这 些 年 提出 了 TF 和 IDF 的 很 多 变 体 。 


两 种 最 常用 的 TF 方法 是 ， 只 考虑 一 个 单词 在 一 篇 文档 中 的 原始 频率 ， 以 及 用 一 篇 文档 中 的 
单词 总 数 对 单个 单词 进行 归 一 化 ( 即 观察 该 单词 在 一 篇 文档 中 的 出 现 概 率 )。 

在 IDF 方 面 ,传统 的 定义 是 1og(N/n) ， 其 中 是 文档 的 总 数 ，n 是 包含 给 定单 词 的 文档 数 
目 。 对 于 出 现在 每 篇 文档 中 的 单词 ， 其 IDF 的 值 将 是 0 ( 即 10g (1) )。 因 此 ，IDF 的 另 一 个 归 一 
化 方法 是 1+1og (N/n)。 


5-8 展示 了 TF-IDF 及 其 与 Zipf 定律 的 关系 , 即 出 现 频率 太 高 或 太 低 的 单词 都 没有 代表 性 。 
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代表 性 单词 
具有 较 高 TF-IDF 











等 级 
词 频 太 高 : 感 兴趣 的 词 词 频 太 低 : 
-高 TF -高 TF-IDF - 低 TF 
- 低 IDF -具有 代表 性 -高 IDF 
- 没 特点 




















图 5-8 单词 及 其 重要 程度 的 分 布 


高 频 单词 中 会 包含 停 用 词 ， 如 冠 词 、 连 词 和 介词 。 通 常 来 说 ， 这 些 词 本 身 不 具有 任何 含义 ， 
因此 可 以 忽略 ( 即 删 除 )。 另 一 方面 ， 那 些 罕见 的 单词 主要 是 拼写 错误 的 单词 以 及 专业 词汇 。 取 
决 于 应 用 ， 探 索 数据 集 可 以 更 好 地 了 解 移 除 停 用 词 是 否 是 个 好 主意 。 


gplus_activities_keywords .py 脚本 从 给 定 的 JSON Lines 文件 中 读 取 活动 列表 ,计算 Ei 
每 个 活动 的 文本 内 容 中 每 个 单词 的 TF-IDF 值 ， 并 将 最 高 频 的 关键 词 显示 在 每 条 帖子 的 旁边 。 


0 该 代码 用 NLTK 库 来 执行 一 些 文本 处 理 操作 ， 如 分 词 和 移 除 停 用 词 。 我 们 在 第 1 
























































章 中 探 完了 如 何 下 载 需 要 用 到 的 NLTK 包 ， 特 别 是 用 于 分 词 的 bunkt 包 。 


gpblus_activities_keywords .py 脚本 如 下 所 示 。 


# Chap05/gplus_activities_ keywords.py 
import os 
import json 
from argparse import ArgumentParseL 
from collections import defaultdict 
from collections import Counter 
from operator import itemgetter 
from math import log 
from string import punctuation 

from bs4 import BeautifulSoup 

from nltk.tokenize import word tokenize 
from nltk.corpus import stopwords 


我 们 定义 了 一 个 停 用 词 列 表 ， 该 列表 由 稼 用 英语 停 用 词 和 标点 符号 组 成 。 


punct = 1ist(punctuation) 
all_stopwords = Stopwords .words ('english') + punct 








def get_parser() : 
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parser = ArgumentParser() 
parser.add_ argument ('--file', 

'-f', 

required=True, 

help='The .json1l file with all the activities') 
parser.add argument ('--keywords', 

type=int, 

default=3, 

help='Number of keywords to extract for each post') 
return parser 


预 处 理 步骤 由 preprocess () 函数 处 理 ,主要 包括 归 一 化 、 数 据 清 洗 (使 用 clean_nhtml () 
辅助 函数 ) 和 分 词 。 


def clean html (html) : 
soup = BeautifulSoup (html, "html .parser") 
text = soup.get_text(" ", strip=True) 
text = text.replace('\xa0', ' ') 
text = text.replace('\ufeff', ' ') 
text = ' '.join(text.split()) 
return text 


























def preprocess (text, stop=all_stopwords, normalize=True): 
if normalize: 
text = text.lower() 
text = clean_ html (text) 
tokens = word_ tokenize (text) 
return list(bigrams (tokens)) 
# return [tok for tok in tokens if tok not in stop 


以 下 函数 处 理 单词 的 统计 。make_idf () 创 建 一 个 IDF 分 值 
其 计算 每 个 文档 的 TF-IDF 分 数值 ， 以 提取 有 趣 的 关键 词 。 





? Ly 


合 ，get_keywords () 函数 用 


def make_idf matrix(corpus): 
df = defaultdict (int) 
for doc in corpus: 
terms = set (doc) 
for term in terms: 
df[lterm] += 1 


GE 三 
for term, term df in Qf.items() : 
idf[term] = 1 + log(len(corpus) / term df) 


return idf 


def get_keywords (doc, idf, normalize=False): 
tf = Counter (doc) 
if normalize: 
tf = {term: tf_value/len (doc) 
for term, tf_value in tf.items()} 
tfidf = {term: tf_value*idf [term] 
for term; tf. value. in tf items()} 
return sorted(tfidf.items(), 
key=itemgetter(1), 
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reverse=True) 


if marme = MT 
parser = get_parser() 
args = parser.parse_args() 
with open(args.file) as f: 





posts = [] 
for Tine ‘in f£: 
activity = json.loads (line) 
posts.append (preprocess (activity['object']['content'])) 


idf = make_iqf matrix(posts) 


for i, post in enumerate (posts): 


keywords = get_keywords (post, idf) 
Print("---------- ") 


print ("Content: {}".format (post)) 


print ("Keywords: {}".format (keywords[:args.keywords])) 


和 前 面 的 示例 一 样 ， 我 们 用 ArgumentParser 读 取 命令 行 参数 。--file 用 于 传递 文件 名 ， 
可 选 参 数 --keywords 指定 每 篇 文档 中 我 们 希望 关注 的 关键 词 个 数 ( 默认 为 3 )。 


可 以 用 以 下 命令 运行 上 述 脚 本 。 
$ python gplus activities keywords.py --file 
activities +LarryPage.jsonl --keywords 5 
该 命令 会 为 用 户 +LarryPage 读 取 活动 的 .jsonl 文件 ( 假设 已 经 提前 下 载 好 ), 并 显示 每 个 活动 
的 前 5 个 关键 词 。 








例如 ，Larry Page 的 其 中 一 条 帖子 如 下 所 示 。 


Content : ['fun', 'day', 
'gusty', 'ago'] 
Keywords: [('alaska', 5.983606621708336), ('gusty', 5.983606621708336), 


('kiteboarding', 5.983606621708336), ('cold', 4.884994333040227)， 
('pretty', 3.9041650800285006)] 


'kiteboarding', 'alaska', 'pretty', 'cold', 


正如 我 们 所 见 ， 帖子 以 各 项 列表 的 形式 呈现 , 关键 词 以 元 组 列表 的 形式 呈现 ，| 
含 词 项 及 其 TF-IDF 分 值 。 





昌 每 个 元 组 包 


从 全 文本 到 词 项 列表 的 转变 由 preprocess () 函数 处 理 ， 该 函数 将 clean_html () 函数 用 
作 辅 助 函 数 。 


预 处 理 过 程 会 执行 以 下 步 又 : 





口 文本 归 一 化 〈 即 全 部 转换 为 小 写 ) 
口 HTML 清洗 /去 除 








132 第 5 章 Googlet 话 题 分 析 





口 分 词 

口 停 用 词 移 除 
preprocess () 蜀 数 只 需要 一 个 强制 参数 ， 我 们 可 以 自 定义 要 移 除 的 停 用 词 列表 (车 不 想 执 

行 这 个 步 又, 则 可 以 传人 一 个 空 列 表 ), 也 可 以 通过 设置 关键 字 参 数 stop 和 normalize 来 关闭 

小 写 转换 。 


文本 归 一 化 用 于 合并 只 是 大 小 写 形式 不 同 的 单词 。 例 如 ， 单 词 The 和 THE 通过 小 写 处 理会 
映射 到 the。 小 写 转换 在 很 多 应 用 中 都 是 有 意义 的 , 但 在 有 些 情景 并 不 适用 , 如 us (代词 ) 和 U.S. 
( United States 的 缩写 ) 并 不 相同 。 注 意 ， 小 写 转换 不 可 逆 ， 因 此 ， 如 果 需 要 在 后 面 的 应 用 中 参考 
原始 文本 ， 那 么 还 需要 将 其 存储 下 来 。 


用 Beautiful Soup 清洗 HTML 只 需要 几 行 代码 。BeautifulSoup 对 象 利用 html .parser 
作为 第 二 个 参数 实例 化 后 ， 就 可 以 处 理 畸 形 的 HTML。get_text () 也 数 只 获取 文本 ,将 HTML 
标签 留 下 。 作 为 这 个 函数 的 第 一 个 参数 , 空格 用 于 替换 被 去 除 的 HTML 标签 。 它 适用 于 以 下 情景 。 


. Some sentence<br />The beginning of the next one 


在 以 上 示例 中 ， 只 去 除 断 行 标签 会 生成 一 个 sentenceThe 词 项 ， 这 显然 不 是 一 个 真实 的 单 
词 。 用 一 个 空格 替换 这 个 标签 就 可 以 解决 这 个 问题 。 


clean_html () 函数 还 用 几 个 字符 串 替 换 空 白 的 Unicode 字符 。 最后, 如果 文 本 中 有 很 多 连续 
的 空白 ， 会 通过 分 割 文本 然后 再 拼接 起 来 (如! ' .join(text.split())) 归 一 化 为 一 个 空白 。 


分 词 是 将 字符 串 分 割 为 独立 词 项 的 过 程 ， 由 NLTK 的 woraq_tokenize() 国 数 处 理 。 


最 后 ， 用 一 个 简单 的 列表 推导 式 实现 停 用 词 移 除 ， 检 查 每 个 词 项 是 否 出 现在 stop 列表 中 。 
NLTK 的 英语 停 用 词 列表 和 string .punctuation 的 标点 符号 列表 合并 为 默认 的 停 用 词 列表 。 


TF-IDF 由 两 个 函数 实现 : make_iaqf() 和 get_keywords () 。 由 于 IDF 是 基于 整个 文档 集 
合 的 统计 ， 我 们 会 首先 计算 它 。corpus 参数 是 一 个 列表 的 列表 ， 即 一 个 分 词 文档 的 列表 ， 这 些 
文档 已 经 由 preprocess () 国 数 处理 过 了 。 


首先 ， 我 们 用 af 字典 计算 文档 频率 。 它 是 出 现 了 某 个 单词 的 文档 总 数 ， 也 就 是 说 不 考虑 单 
词 重复 出 现 的 情况 。 对 于 语料库 中 的 每 篇 文档 , 我们 会 将 其 转换 为 一 个 集合 。 这 样 一 来 ,文档 中 
的 每 一 项 都 是 唯一 的 。 其 次 ,我 们 将 迭代 新 构建 的 af 字典 的 各 项 ， 并 用 其 计算 IDF 值 ， 然 后 由 
该 函数 返回 。 就 这 个 版 本 的 IDF 而 言 ， 我 们 将 使 用 前 面 提 到 的 +1 归 一 化 。 


至 此 , 我们 可 以 着 手 计算 文档 中 每 一 项 的 TF-IDF 值 了 。 调 用 get_keywords () 了 数 来 迭代 
所 有 帖子 ， 该 函数 需要 两 个 参数 : 文档 ( 词 项 列表 ) 和 前 面 构建 的 IDF 字典 。 第 三 个 可 选 参数 是 
一 个 标记 ， 用 于 激活 文档 长 度 的 归 一 化 步骤 ， 这 会 有 效 地 将 TF 值 转化 为 词 项 在 文档 中 出 现 的 概 
率 , 即 P(tldq)。 
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get_keywords ( ) 函数 首先 通过 collections.Counter 创建 一 个 原始 的 TF 值 ， 它 本 质 上 
是 一 个 字典 。 如 果 文 档 长 度 需要 归 一 化 ， 则 通过 一 个 字典 推导 式 重 建 tf 字典 ， 计 算 方法 是 将 每 
个 原始 的 TF 值 除 以 文档 中 项 的 总 数 ( 即 文档 的 长 度 )。 

将 每 一 项 的 TF 值 和 IDF 值 相 乘 来 计算 TF-IDF 值 。 这 里 再 次 使 用 了 字典 推导 式 。 


最 后 , 该 函数 返回 项 以 及 相应 TF-IDF 值 的 列表 , 并 按照 值 的 大 小 排序 。 用 key= itemgetter (1) 
调用 sorted() 对 TF-IDF 值 (元 组 的 第 二 项 ) 进行 排序 ， 并 用 reverse=True 进行 降序 显示 。 
























































用 n-gram 方法 捕获 短语 


TF-IDF 对 关键 词 在 一 篇 文档 中 的 重要 程度 提供 了 简单 的 数值 统计 。 使 用 该 模型 时 ， 每 个 单 
词 是 单独 计算 的 , 单词 的 顺序 无 关 紧 要 。 实 际 上 , 单词 的 使 用 是 有 先后 顺序 的 ， 而 且 单词 序列 在 
句子 结构 中 通常 是 一 个 独立 单元 〈 也 称 作 语言 学 中 的 组 成 成 分 )。 

给 定 一 个 分 词 后 的 文档 〈 即 一 个 词 项 序列 )， 我 们 称 n-gram 是 该 文档 中 个 邻近 项 的 序列 。 
n=1 时 ， 我 们 考虑 的 仍 是 单个 项 (也 称 作 unigram )。 当 大 于 1 时， 我 们 考虑 的 是 任意 长 度 的 序 
列 。 典 型 的 示例 是 bigram (n=2 ) 和 trigram (n=3 )， 但 任意 长 度 的 序列 都 是 有 可 能 的 。 


给 定 词 项 的 输入 列表 , NLTK 提供 了 快速 计算 n-gram 列表 的 方法 。 NLTK 用 nitk.util.ngrams 
函数 处 理 n-gram 的 生成 。 











































































































>>> from nltk.util import ngrams 

>>> s = 'the quick brown fox jumped over the lazy dog'.split() 

>>> s 

['the', 'quick', 'brown', 'fox', 'jumped', 'over', 'the', 'lazy', 'dog'] 

>>> list(ngrams(s, 4)) 

[('the', 'quick', 'brown', 'fox'), ('quick', 'brown', 'fox', 'jumped'), 

('brown', 'fox', 'jumped', 'over'), ('fox', 'jumped', 'over', 'the'), 

('jumped', 'over', 'the', 'lazy'), ('over', 'the', 'lazy', 'dog')] 

我 们 可 以 看 到 ， 该 函数 需要 两 个 参数 : 一 个 词 项 序列 和 一 个 数字 。ngrams () 返 回 的 值 是 一 
个 生成 器 对 象 , 因此， 为 了 在 命令 行 中 显示 出 来 我 们 将 其 转换 为 一 个 列表 ， 但 也 可 以 直接 在 一 
个 列表 推导 式 中 使 用 它 。 


NLTK 还 提供 了 两 种 快捷 方法 : nltk.bigrams () 和 nltk.trigrams ()。 它 们 可 以 分 别 用 
n=2 和 n=3 调用 ngrams ()。 


如 果 感 兴趣 ， 你 可 以 思考 以 下 问题 。 


口 能 和 否 修改 本 节 中 给 出 的 代码 来 捕获 有 意义 的 bigram 或 trigram， 而 不 只 是 单个 单词 ? 
口 当 捕获 n-gram 时 ， 移 除 停 用 词 有 什么 影响 ? 
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5.5 小结 
本 章 介绍 了 Google+ API, 还 讨论 了 如 何在 Google 开发 者 控制 台 注 册 一 个 项 目 , 以 及 如 何 启 
用 项 目 需要 用 到 的 API。 


本 章 首先 用 一 个 示例 展示 了 如 何 用 Google+ API 进行 搜索 。 然 后 基于 这 个 示例 ,介绍 了 如 何 
将 API 租 人 Web 应 用 。 我 们 用 Flask 这 个 Web 开发 的 微 架 构 创 建 了 一 个 Web GUI 来 显示 搜索 会 
话 的 结果 。 


接 下 来 分 析 了 一 个 用 户 或 页 面 的 文本 笔记 。 下 载 用 户 活动 并 将 其 存储 为 JSON Lines 格式 后 ， 
我 们 介绍 了 TF-IDF 这 种 从 文本 中 抽取 有 趣 关 键 词 并 进行 数值 统计 的 方法 。 


下 一 章 会 将 注意 力 转移 到 问题 回答 领域 ， 我 们 将 探索 Stack Overflow API 的 使 用 。 
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本 章 关 于 问答 网 络 Stack Exchange， 以 及 问题 回答 这 个 更 广泛 的 主题 。 
本 章 将 介绍 以 下 主题 : 


口 如 何 创 建 一 个 与 Stack Exchange API 互 动 的 应 用 
口 如 何在 Stack Exchange 搜索 用 户 和 问题 

口 如 何 为 线 下 数据 分 析 导 出 数据 

口 用 于 文本 分 类 的 监督 机 顺 学 习 

口 如 何 用 机 器 学 习 预 测 问题 标签 

口 如 何 将 机 器 学 习 模型 仍 和 人 实时 应 用 








6.1 提问 和 回答 


查找 特定 信息 的 答案 是 Web 的 一 个 主要 用 途 。 随 着 时 间 的 推移 ， 该 技术 在 不 断 发 展 ， 互 联 6 
网 用 户 也 在 不 断 改变 其 在 线 行为 。 


人 们 在 互联 网 上 查找 信息 的 方法 与 15~20 年 前 大 不 相同 。 在 过 去 , 查找 答案 主要 指使 用 搜索 
引擎 。Amanda Spink 等 人 于 2001 年 撰写 的 Searching the Web: The Public and Their Queries 一 书 关 
于 20 世纪 90 年 代 后 期 的 主流 搜索 引擎 查询 结果 。 这 本 书 表 明 ， 那个 年 代 的 搜索 一 般 非 常 短 ( 平 
均 2.4 个 词 )。 


最 近 几 年 , 我们 开始 经 历 从 短 的 基于 关键 词 的 搜索 到 长 的 对 话 式 搜索 ( 或 问题 式 搜索 ) 的 转 
变 。 换 句 话 说， 搜索 引擎 已 经 从 关键 词 匹配 转移 到 自然 语言 处 理 。 例 如 ， 图 6-1 显示 了 Google 
如 何 自 动 补 全 来 自用 户 的 查询 /问题 。 该 系统 用 流行 的 查询 数值 统计 信息 来 预测 用 户 的 真实 问题 。 

自然 语言 的 UI 为 最 终 用 户 提供 了 更 自然 的 体验 。 其 中 一 个 更 先进 的 示例 就 是 能 入 智能 手机 
应 用 的 智能 私人 助理 。 例 如 ，Google Now、Apple 的 Siri 和 Microsoft 的 Cortana 都 允许 用 户 搜索 
Web， 得 到 有 关 和 餐馆 的 推荐 或 者 帮助 安排 约会 行程 。 
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Co gle | wnyis python 





why is python so popular 
why is python good 

why is python used 

why is python called python 
Press Enter to search. 











提出 问题 只 是 工作 的 一 部 分 ， 





图 6-1 ”Google 的 一 个 查询 自动 补 全 示例 


最 重要 的 是 找到 问题 的 答案 。 图 6-2 显示 了 Google 根据 查询 











给 出 的 结果 页 面 : why is python called python。 当 Google 将 这 个 查询 编译 为 一 个 常规 查询 ， 即 一 








个 问题 而 不 是 通常 的 信息 查询 时 ， 


























就 会 激活 所 谓 的 答案 框 。 该 答案 框 包含 来 自 一 个 网 页 的 片段 ， 





Google 认为 该 片段 就 是 给 定 问题 的 答案 。 页 面 的 其 余部 分 没有 展示 在 图 片 中 , 包含 的 是 传统 的 搜 


索引 擎 结果 页 面 。 








reading 





Go gle why is python called python 
All Images Videos Shopping News Morev Search tools 


About 33,500,000 results (0.40 seconds) 


When he began implementing Python, Guido van Rossum was also 


BBC comedy series from the 1970s. Van Rossum thought he needed a 
name that was short, unique, and slightly mysterious, so he decided to 
call the language Python. 


General Python FAQ — Python 2.7.11 documentation 
https://docs.python.org/2/faq/general.html 


the published scripts from “Monty Python's Flying Circus”, a 





Feedback 





图 6-2 


答案 框 作 为 对 话 式 查 询 结果 的 一 个 示例 




















关于 自动 问答 ( QA ) 的 研究 并 不 局 限于 搜索 引擎 领域 。IBM 的 Watson 是 人 工 智能 领域 非常 
知名 的 一 项 成 就 ， 它 是 IBM 公司 开发 的 问答 系统 ， 并 以 IBM 的 首 任 CEO 的 名 字 Thomas Watson 
命名 。 该 问答 机 器 人 完成 时 就 获得 了 广泛 关注 ,而 且 在 游戏 Jeopardy! 中 打败 了 人 类 冠军 ,Jeopardy! 




















是 一 个 非常 流行 的 美国 问答 游戏 节目 ， 参 赛 选手 必须 在 给 出 问题 的 相关 线索 后 回答 出 问题 的 答 


案 。 尽管 该 游戏 与 上 述 过 程 ( 你 必须 找到 给 定 答案 的 正确 问题 ) 相反 , 但 是 解决 这 一 问题 所 需 的 








技术 是 可 以 双向 操作 的 。 
虽然 搜索 引擎 和 智能 私人 助理 








在 不 断 改善 用 户 在 互联 网 上 查找 信息 的 方式 , 但 用 户 迫 切 找到 





























答案 的 需求 促进 了 问答 网 站 的 崛起 。 最 著名 的 问答 网 络 是 Stack Exchange， 目 前 包含 很 多 专题 网 
站 : 从 技术 到 科学 、 从 商业 到 娱乐 ， 其 中 最 知名 的 是 Stack Overflow， 里 面 有 各 种 有 关 编 程 的 大 
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量 问题 和 回答 。Stack Exchange 的 其 他 网 站 还 包括 Movies &TV( 服务 于 电影 和 电视 节目 爱好 者 )、 
Seasoned Advice ( 服务 于 专业 和 业余 厨师 )、English Language & Usage ( 服务 于 语言 学 家 、 语 源 
学 家 和 英语 爱好 者 ) 和 Academia ( 服务 于 学 者 和 接受 过 高 等 教育 的 人 群 )。Stack Exchange 的 网 
站 列表 非常 长 ， 包 含 的 主题 也 多 种 多 样 。 


Stack Exchange 成 功 的 原因 之 一 可 能 是 该 社区 的 内 容 质量 非常 高 。 因 为 问题 和 回答 都 要 接受 
用 户 投票 , 所 以 高 质量 的 回答 会 上 升 至 靠 前 的 位 置 。 用 户 通 过 使 用 网 站 挣 得 声望 点 的 机 制 使 得 我 
们 可 以 识别 社区 中 最 活跃 的 成 员 以 及 他 们 的 专业 。 用 户 在 他 们 的 回答 获得 赞 或 踩 投票 时 会 获得 或 
失去 相应 的 声望 点 数 。 系 统 的 游戏 化 还 包括 用 户 可 以 通过 贡献 获得 的 一 系列 勋章 。 

为 了 保持 内 容 的 高 质量 ,重复 的 问题 和 低 质 量 的 回答 通常 会 被 截留 ， 由 审核 人 员 复 核 ， 并 最 
终 被 修改 或 关闭 。 

社交 网 络 服务 的 一 些 主要 特征 并 未 在 Stack Exchange 中 体现 。 例 如 ， 这 里 不 可 能 直接 与 其 他 
用 户 连接 ( 如 Facebook 和 Twitter 中 的 好 友 或 粉丝 关系 ), 也 不 可 能 与 其 他 用 户 进行 私人 对 话 。 不 
过 Stack Exchange 作为 一 个 社会 媒体 平台 的 效果 还 是 非常 清晰 的 ， 即 用 户 可 以 通过 它 交 换 知 识 # 
协作 。 


下 一 节 将 介绍 Stack Exchange API。 













































































6.2 Stack Exchange API 入 门 














Stack Exchange API 提供 了 接 人 所 有 Stack Exchange 网 站 的 可 编程 接口 。 想 要 使 用 该 API 的 
第 三 方 应 用 必须 在 https:/stackapps.comy/ 注 册 以 获得 一 个 请 求 键 ， 该 键 用 于 授权 每 天 的 更 多 请 求 。 
注册 应 用 也 必须 执行 鉴 权 的 API 调用 ， 即 以 鉴 权 用 户 的 身份 与 Stack Exchange 交互 。 注 册 过 程 非 
常 简 单 ， 只 需要 Application Name 和 Description， 如 图 6-3 所 示 。 


©; stackapps 


Register Your V2.0 Application 




















Application Name 
Social Media Mining 


Description 





Test application to showcase examples on the book "Mastering 
Social Media Mining with Python" 

















图 6-3 ”stackapps.com 的 应 用 注册 页 国 
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注册 应 用 的 直接 效果 就 是 API 允许 的 每 日 请 求 次 数 上 限 会 增加 。 需要 注意 的 是 , 访问 频率 限 
制 不 只 限制 每 日 访问 量 , 而 且 禁 止 了 网 络 流量 攻击 (例如 ,如果 一 个 了 P 每 秒 发 送 超 过 30 次 请 求 ， 
那么 这 些 请 求 会 被 丢掉 )。 有 关 访 问 频率 限制 的 详细 信息 可 参见 官方 文档 ( https://api.stackexchange. 
com/docs/throttle )。 


注册 应 用 后 ， 必 须 记 下 Stack Exchange 提供 的 键 。OAuth 步骤 必然 会 用 到 用 户 ID 和 客户 端 
密 钥 ， 在 进行 鉴 权 调用 时 ， 键 是 我 们 用 来 享受 增加 的 访问 次 数 的 赁 证。 很 重要 的 另 一 点 是 ,正如 
文档 中 列 出 的 ， 用 户 ID 和 键 并 不 是 保密 的 ， 而 客户 端 密 钥 则 是 一 个 敏感 信息 ， 不 应 该 被 分 发 。 


和 前 儿童 的 做 法 一 样 ， 用 环境 变量 配置 应 用 的 键 。 



























































$ export STACK KEY="your-application-key" 


通过 程序 与 API 交互 前 , 我 们 需要 用 到 的 下 一 个 工具 是 API 客户 端 。 这 里 我 们 主要 使 用 名 为 
Py-StackExchange 的 Python Stack Exchange API 客户 端 。 该 客户 端 用 一 个 直接 的 接口 将 API 的 
端点 与 Python 方法 结合 起 来 。 


在 我 们 的 虚拟 环境 中 ， 用 以 下 命令 从 CheeseShop 安装 Py-StackExchange。 











$ pip install py-stackexchange 


为 了 测试 客户 端 并 显示 其 核心 的 类 ， 我 们 可 以 使 用 Python 的 交互 式 shell 并 观察 Stack 
Overflow 网 站 的 一 些 通用 统计 数据 。 











>>> import os 
>>> import json 
>>> from stackexchange import Site 
>>> from stackexchange import StackOverflow 
>>> api_ key = os.environ.get('STACK KEY') 
>>> so = Site(StackOverflow, api_ key) 
>>> info = so.info() 
>>> print (info.total questions) 
10963403 
>>> print (info.questions per minute) 
2.78 
>>> print (info.total comments) 
53184453 
>>> print (json.dumps (info.json, indent=4)) 
{ 
"total_ votes": 75841653, 
"badges_ per minute": 4.25, 
"total answers": 17891858, 
"total questions": 10963403, 
" params_": { 
"body": "false", 
"site": "stackoverflow.com", 
"comments": "false" 
}, 
"api_ revision": "2016.1.27.19039", 
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"new_active users": 35, 
"total accepted": 6102860, 
"total_ comments": 53184453, 
"answers per minute": 4.54, 
"total users": 5126460, 
"total badges": 16758151, 
"total _ unanswered": 2940974, 
"questions per minute": 2.78 
} 


与 API 交 互 的 核心 类 是 stackexchange.Site， 可 以 用 两 个 参数 来 实例 化 它 : 第 一 个 是 我 

们 感 兴趣 的 Stack Exchange 网 站 的 类 定义 (这 里 是 stackexchange.Stackoverflow )， 第 二 个 
是 可 选 的 应 用 键 。 定 义 好 site 对 象 后 ， 可 以 用 其 方法 访问 API。 
在 这 个 示例 中 ， 我们 将 用 info () 方 法 访问 /info 端点 。 返 回 的 对 象 有 一 些 属性 。 这 个 示例 
低 打 印 total_aduestions 、duestions_per_minute 和 total_comments 的 值 。 可 以 在 
info. dict_ 字典 中 查看 完整 属性 列表 ， 此 外 ，info 对 象 也 有 一 个 info.json 属性 ， 包 含 
来 自 API 的 原始 响应 ， 而 且 把 前 面 提 到 的 所 有 属性 都 显示 为 JSON 格式 。 
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6.2.1 搜索 市 标签 的 问题 


介绍 完 与 Stack Exchange API 的 基本 交互 后 ,我 们 将 用 Python 客户 端 来 搜索 问题 具体 来 说 ， 
我 们 将 用 话题 标签 作为 关键 词 的 过 滤器 。 


以 下 代码 执行 搜索 。 


# Chap06/stack_search_Kkeyword .py 
import os 
import json 
from argparse import ArgumentParser 
from stackexchange import Site 
from stackexchange import StackOverflow 
def get_ parser(): 
parser = ArgumentpParser () 
parser.add argument ('--tags') 
parser.add argument ('--n', type=int, default=20) 
return parser 











半生 marme Ss 上 i 
parser = get_parser() 
args = parser.parse_args() 
my_key = os.environ.get ('STACK_KEY') 
so = Site(StackOverflow, my_key) 
Guestions = so.questions (tagged=args.tags, pagesize=20)[:args.n] 





for i, item in enumerate (questions): 
PEINnCE MY by A "formatti, 
item.title, 
item.owner.display_name)) 
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上 述 代码 用 Argument Parser 从 命令 行 获取 一 些 参 数 。 -tags 选项 用 于 传递 我 们 搜索 的 
标签 列表 ， 并 以 分 号 分 隔 。 结 果 的 数目 由 脚本 中 的 --a 标记 定义 ( 默认 是 20 个 问题 )。 


可 以 用 以 下 命令 运行 上 述 脚本 。 








$ python stack search keyword.py --tags "python;nosql" --n 10 

标签 列表 外 的 双 引 号 是 必需 的 ， 因 为 分 号 是 Bash 这 样 的 shell 的 命令 分 隔 符 ， 所 以 整 行 会 分 
为 两 个 独立 的 命令 (第 二 个 命令 以 nosql 开头 )。 使 用 双 引 号 后 ,python ;nosql 字符 串 不 会 被 
当 作 单 个 字符 串 ， 整 行 是 一 个 完整 的 命令 。 























标签 列表 通过 auestions () 方 法 的 tagged 参数 传递 到 API。 该 参数 出 现在 一 个 布尔 AND 
查询 中 ， 意 味 着 检索 的 问题 同时 包含 python 和 nosaql 标签 。 


布尔 查询 

duestions () 方 法 实现 的 是 /auestions 端点 ， 该 端点 用 AND 连接 多 个 标签 。 
é 调用 该 方法 的 输出 是 一 个 包含 这 些 标签 的 问题 。 

search () 方 式 实现 的 是 /search 端点 , 与 上 述 questions() 方 法 相反 的 是 ， 多 

个 标签 是 用 OR 连接 的 。 调 用 该 方法 的 输出 是 一 个 包含 任意 给 定 标 签 的 问题 列表 。 





要 注意 的 一 个 重要 细节 是 ,Py-StackExchange 客户 端 经 常用 懒惰 列 表 来 最 小 化 底层 API 调用 
的 次 数 。 也 就 是 说 ，questions () 这 样 的 方法 返回 的 并 不 是 一 个 列表 ， 而 是 结果 集合 的 一 个 包 
装 器 。 对 这 个 结果 集合 的 直接 迭代 会 尝试 访问 匹配 查询 的 所 有 项 ( 如 果 不 小 心 处 理 ， 可 能 会 违背 
使 用 懒惰 列表 的 初衷 )， 而 不 只 是 给 定 页 面 大 小 的 列表 。 


因此 ， 我 们 用 slice 运算 符 来 显 式 调用 特定 数量 的 结果 ( 通过 命令 行 参数 --n 指定 ， 因 此 
可 以 用 args.n 访问 )。 























Python 列表 的 切片 和 取 值 

slice 运算 符 是 一 个 非常 强大 的 工具 ,但 其 语法 对 Python 的 初学 者 来 说 有 些 令 
人 困惑 。 以 下 示例 总 结 了 其 主要 用 途 。 

选 定 从 列表 开始 到 末尾 索引 -1 的 项 


array [start:end] 


选 定 列表 所 有 项 


array [start:] 
选 定 从 列表 开始 到 末尾 索引 -1 的 项 
array[:end] 


获得 整个 列表 的 一 个 副本 
array[:] 

按照 步 长 值 从 列表 中 挑选 项 
array [start:end:step] 
获得 最 后 一 项 
array[-1] 

获得 最 后 n 项 

array [-n:] 
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# 获得 除 最 后 n 项 外 的 所 有 项 


array[:-nl] 


例如 ， 思 考 以 下 示例 。 


>>> data = ['one', 'two', 'three', 'four', 'five'] 
>>> datal[2:4] 
'three', 'four'] 
>>> data[2:] 
'three', 'four', 'five'] 
>>> data[:4] 
'one', 'two', 'three', 'four'] 


>>> newdata = datal[l:] 
>>> newdata 
'one', 'two', 'three', 'four', 'five'] 


S27 0at 人 aL] 





| 
>>> Qata[-11] 
'five' 
> Halal 
['five'] 
> "Qala 
['one', 'two', 'three'] 


值得 注意 的 是 ， 索引 是 从 0 开始 的 ， 因此 data[0] 是 第 一 项 ， dqata[1] 是 第 二 
项 ， 以 此 类 推 。 





stack_search_keyword.py 脚本 的 输出 结果 是 与 Python 和 NoSQL 相关 的 10 个 问题 组 成 
的 一 个 序列 ， 格 式 如 下 。 


n) Question title by User 

(通过 item 变量 在 for 循环 获得 的 ) 每 个 问题 以 及 title 或 tags 等 属性 被 包装 进 6 
stackexchange.model.ouestion 模型 类 。 通 过 owner 属性 将 每 个 问题 与 提出 问题 的 用 户 的 

模型 链接 起 来 。 在 这 个 示例 中 ， 我 们 获得 了 问题 的 title 和 用 户 的 display_name。 


























结果 集合 由 最 后 的 活动 日 期 排序 ， 也 就 是 说 , 活路 时 间 越 近 ( 如 有 新 的 答案 ) 则 显示 的 排序 
越 靠 前 。 








排序 效果 受 questions () 方 法 的 sort 属性 影响 ， 它 可 以 采用 以 下 值 。 


口 activity (默认 值 ) : 靠 前 展示 具有 最 新 活动 的 问题 
口 creation: 靠 前 展示 最 新 创建 的 问题 

口 votes: 靠 前 展示 具有 最 高 投票 分 数 的 问题 

口 not : 用 公式 计算 出 热门 问题 

口 week: 用 公式 计算 出 本 周 问题 

口 month: 用 公式 计算 出 月 度 问题 
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6.2.2 ”搜索 用 户 


绍 完 如 何 搜索 问题 后 ,本 节 将 介绍 如 何 搜索 特定 的 用 户 。 过 程 与 搜索 问题 的 方法 类 似 。 以 
下 示例 建立 在 前 面 的 示例 基础 上 ， 这 里 扩展 ArgumentParser 来 个 性 化 设置 一 些 搜 索 选 项 。 


# Chap06/stack_ search user.py 

import os 

import json 

from argparse import ArgumentParser 
from argparse import ArgumentTypeError 
from stackexchange import Site 

from stackexchange import StackOverflow 


以 下 函数 用 于 验证 通过 ArgumentParser 传递 的 参数 是 否 合 法 ， 如 果 参 数 非法 ， 这 些 函 数 
会 抛 出 异常 来 阻止 代码 继续 执行 。 


def check_sort_value(value) : 
Validq_sort_values = [ 
'reputation', 
'creation', 
'name', 
'modified' 

















] 
if value not in valid_ sort_values: 

raise ArgumentTypeError("{} is an invalid sort value".format (value)) 
return value 


def check_ order_value (value): 
valid_ order_values = ['asc', 'desc'] 
if value not in valid order values: 
raise ArgumentTypeError("{} is an invalid order value".format (value)) 
return value 


接 下 来 ， check_sort _ value() 和 check_order value( 函数 就 可 以 作为 相关 参数 的 
type 在 Argument Parser 定义 中 使 用 。 





def get_parser(): 

parser = ArgumentParser() 

parser.add_argument ('--name') 

parser.add_ argument ('--sort', 
default='reputation', 
type=check_sort_value) 
parser.add argument ('--order', 
default='desc', 
type=check_order_value) 
parser.add_argument ('--n', type=int, default=20) 
return parser 


实现 用 户 搜索 的 这 段 代码 的 逻辑 非常 直接 。 


于 下 name SE Lin 
parser = get_parser() 
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args = parser.parse_args() 
my_key = os.environ.get ('STACK_KEY') 
so = Site(StackOverflow, my_key) 


users = so.users (inname=args.name, 
sort=args.sort, 
order=args .order) 
users = users[:args.n] 


for i, user in enumerate (users): 
print("{}) {}, reputation {}, joined {}".format(i, 
user.display_name, 
user.reputation, 
user.creation date)) 


stack_search_user.py 脚本 照常 用 ArgumentParser 来 捕获 命令 行 参数 ,与 前 面 示例 的 不 
同 之 处 在 于 对 某 些 选项 ( 如 --sort 和 --order ) 自 定义 数据 类 型 。 在 深入 介绍 ArgumentParser 
数据 类 型 前 ， 我 们 先 介 绍 一 个 用 例 。 


假设 我 们 想 要 搜索 Stack Exchange 的 创始 人 ( Jeff Atwood 和 Joel Spolsky )。 查 询 语句 如 下 
所 示 。 


$ python stack search user.py --name joel 
该 命令 返回 的 输出 结果 与 以 下 示例 类 似 。 


0) Joel Coehoorn, reputation 231567, joined 2008-08-26 14:24:14 
1) Joel Etherton, reputation 27947, joined 2010-01-14 15:39:24 
2) Joel Martinez, reputation 26381, joined 2008-09-09 14:41:43 
3) Joel Spolsky, reputation 25248, joined 2008-07-31 15:22:31 

# (snip) 


实现 /users 端点 的 Site.users() 方 法 的 默认 做 法 是 返回 一 个 用 户 列 表 , 该 列表 的 排列 顺 
序 依 据 声望 值 从 大 到 小 排列 。 


有 趣 的 是 ，Stack Overflow 的 创始 人 之 一 并 不 是 用 户 列 表 中 声望 值 最 高 的 人 。 我 们 想 要 查询 
他 是 否 为 注册 时 间 最 早 的 人 。 这 可 以 通过 加 入 一 些 参 数 实现 ， 如 下 所 示 。 





















































$ python stack search user.py --name joel --sort creation --order asc 
不 出 所 料 ， 现 在 输出 结果 不 同 了 ，Joel Spolsky 的 注册 时 间 最 早 。 


0) Joel Spolsky, reputation 25248, joined 2008-07-31 15:22:31 
1) Joel Lucsy, reputation 6003, joined 2008-08-07 13:58:41 

2) Joel Meador, reputation 1923, joined 2008-08-19 17:34:45 

3) JoelB, reputation 84, joined 2008-08-24 00:05:44 

4) Joel Coehoorn, reputation 231567, joined 2008-08-26 14:24:14 
# (snip) 


这 个 示例 中 的 ArgumentParser 充分 利用 了 可 以 为 每 个 参数 自 定义 数据 类 型 的 便利 之 处 。 
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通常 来 说 ,传递 给 a69_argument () 函数 的 type 参数 使 用 内 置 的 数据 类 型 (如 int 或 bool )， 
但 在 示例 中 ,我 们 可 以 进一步 扩展 其 功能 来 实现 一 些 基 本 的 数据 验证 功能 。 


问题 是 ,传递 给 /users 端点 的 sort 和 order 人 参数 仅 接受 有 限 的 字符 串 集合 .check_sort_ 
value() 和 check_oraqer_value () 图 数 只 确认 给 定 的 值 是 否 在 接受 的 列表 值 中 。 如 果 没 有 出 
现 ， 该 函数 会 抛 出 ArgumentTypeError 异常 ， Argument Parser 会 捕获 该 异常 并 向 用 户 显示 
一 条 错误 消息 。 例 如 ,使 用 以 下 命令 。 






































$ python stack search user.py --name joel --sort FOOBAR --order asc 
使 用 --sort 参数 将 产生 如 下 输出 。 


usage: stack search user.py [-h] [--name NAME] [--sort SORT] [--order ORDER] 
[--n N] 
Stack search user.py: error: argument --sort: FOOBAR is an invalid sort value 
如 果 没 有 实现 自 定 义 的 数据 类 型 ， 用 错误 的 参数 调用 该 脚本 将 导致 API 返回 错误 ， 
Py-StackExchange 客户 端 会 捕获 该 错误 ， 并 显示 StackExchangeError 及 相关 的 错误 信息 。 



































Traceback (most recent call last): 
File "stack search user.py", line 48, in <module> 
# (long traceback) 
stackexchange.core.StackExchangeError: 400 [bad parameter]: sort 


换 句 话说 ， 自 定义 数据 类 型 允许 我 们 处 理 错误 ， 并 向 用 户 显 示 一 个 更 漂亮 的 消息 。 














6.3 处理 Stack Exchange 的 存档 数据 


Stack Exchange 网 络 还 提供 了 完整 的 存档 数据 ， 可 以 通过 网 络 存 档 下 载 。 数 据 格式 是 有 很 高 
压缩 比 的 7Z。 为 了 读 取 和 抽取 这 种 格式 的 文件 ，Windows 系统 需要 下 载 7-zip 程序 ，Linux/Unix 
和 macOS 系统 也 需要 下 载 相应 版 本 。 


在 撰写 本 书 时 ，Stack Overflow 的 存档 是 用 多 个 独立 的 压缩 文件 提供 的 ， 每 个 压缩 文件 表示 
数据 集 的 一 个 实体 或 表格 。 例 如 ，stackoverflow.com-Posts.7z 文件 包含 帖子 表格 ( 即 问题 和 回答 ) 
的 存档 。 该 文件 的 第 一 版 于 2016 年 发 布 ， 数 据 大 小 约 有 7.9GB ,压缩 前 的 大 小 为 39GB ( 约 是 压 
缩 后 的 5 倍 )。Stack Exchange 其 他 网 站 的 数据 集 更 小 一 些 , 因此 它们 为 网 站 的 表格 提供 单个 压缩 
文件 包 。 


例如 , 电影 和 电视 爱好 者 在 Movies & TV 网 站 上 提问 和 回答 有 关 电 影 和 电视 主题 的 问题 ,可 
以 通过 单个 movies.stackexchange.com.7z 文件 下 载 来 自 该 网 站 的 数据 。 解 压 该 文件 后 可 以 看 到 8 
个 文件 (对 应 8 个 实体 )， 其 内 容 信 息 如 表 6-1 所 示 。 
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表 6-1 Movies & TV 的 文件 









































文件 名 称 表示 实体 

movies.stackexchange.com 勋章 
movies.stackexchange_1.com 评论 
movies.stackexchange 2.com 发 帖 历史 
movies.stackexchange_3.com 目 子 链接 
Imovies.stackexchange_4.com 占 子 ( 问题 和 回答 ) 
movies.stackexchange 5.com 标签 
movies.stackexchange_6.com 户 
movies.stackexchange_7.com 投票 





不 同 网 站 的 不 同 数据 存档 遵循 相同 的 命名 规则 。 例 如 ， 对 每 个 网 站 来 说 ，website 4.com 文 
件 名 包含 的 都 应 该 是 帖子 列表 。 


存档 文件 的 内 容 都 是 以 XML 格式 表示 的 ， 其 结构 通常 如 下 所 示 。 





<?xml] version="1.0" encoding="utf-8"?> 
<entity> 
<row [attributes] /> 
x OPS TOWS ~m% 
</entity> 


第 一 行 是 标准 的 XML 声明 。 这 个 XML 文档 的 根 元 素 是 一 个 实体 类 型 (如 posts、users 
等 )。 特 定 实体 的 每 一 项 用 <row> 元 素 表示 ， 而 它 又 会 包含 多 个 属性 。 例 如 ,一 小 段 posts 实体 
的 片段 如 下 所 示 。 


<?xml] version="1.0" encoding="utf-8"?> 
<posts> 


























<row Id="1" PostTypeId="1" ... /> 
<row Id="2" PostTypeId="2" ... /> 
xEOW LIds"3" PostTypeTd="1". ,3 ~/ 
I= "MOre TOW ==> 

</posts> 











因为 posts 元 素 用 于 表示 问题 和 回答 ， 所 以 每 一 行 的 属性 可 以 不 相同 。 
表 6-2 列 出 了 用 于 表示 一 个 问题 的 <*ow> 元 素 最 重要 的 一 些 属 性 。 





表 6-2 表示 问题 的 <row> 元 素 的 属性 




















属性 名 称 描 述 
Id 每 个 帖子 的 唯一 标识 符 
PostTypeId 对 于 问题 ， 它 的 值 就 是 1 
AcceptedAnswerId 标记 为 已 采纳 回答 的 帖子 的 JP 
CreationDate ISO 8601 格式 的 问题 发 布 日 期 
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( 续 ) 
属性 名 称 描 述 
Score 问题 的 支持 票数 减 去 不 支持 票数 的 值 
ViewCount 问题 被 查看 的 次 数 
Title 问题 的 题目 
Body 问题 的 完整 文本 
OwnerUserId 发 布 问题 的 用 户 的 ID 
Tags 问题 的 标签 列表 
AnswerCount 问题 的 回答 数量 
CommentCount 问题 的 评论 数量 
FavoriteCount 将 问题 标记 为 喜欢 的 用 户 数量 








类 似 地 ， 表 6-3 列 出 了 用 于 表示 一 个 回答 的 <row> 元 素 的 主要 属性 。 





表 6-3 表示 回答 的 <row> 元 素 的 属性 

































































属性 名 称 措 ， 还 
Ia 每 个 帖子 的 唯一 标识 符 
PostTypeId 对 于 回答 ， 它 的 值 是 2 
ParentId 可 答 所 对 应 问题 的 ID 
OwnerUserId 发 布 回答 的 用 户 的 ID 
Score 习 答 的 支持 票数 减 去 不 支持 票数 的 值 
CommentCount 可 答 的 评论 数量 
Body 习 答 的 完整 文本 
本 书 主要 处 理 JSON Lines 格式 的 数据 ， 因 为 JSON Lines 格式 可 以 提供 更 方便 的 数据 表示 。 


以 下 的 stack_xm12json.py 脚本 用 于 将 存档 数据 的 XML 格式 转换 为 我 们 更 熟悉 的 JSON 
Lines 格式 。 这 里 也 进行 了 一 些 基本 清洗 。 
虽然 Python 的 标准 库 对 XML 有 很 好 的 支持 , 但 还 可 以 考虑 一 些 有 趣 的 包 ， 如 lxml。 这 个 库 


提供 了 Python 库 和 低级 C 语言 库 (libxml2 和 libxslt ) 的 结合 。 它 结合 了 两 个 库 极 致 的 性 能 和 完 
整 的 特征 ， 并 保持 了 Python 库 的 良好 设计 和 易于 使 用 的 特性 。 


潜在 的 坏处 在 于 安装 过 程 ， 可 能 会 发 生 libxml2 和 libxslt 库 不 兼容 的 情况 ， 因 为 它们 都 需要 
各 自 的 依赖 。 该 安装 过 程 也 是 使 用 pip， 正 如 我 们 前 面 安 装 所 有 包 一 样 。 


$ pip install lxml 


文档 ( http:/lxml.de/installation.html ) 中 详细 介绍 了 C 语言 库 的 优先 选择 版 本 ， 以 及 一 些 优 
化 。 根 据 平台 和 系统 配置 的 不 同 ,一 些 细节 差异 可 能 会 导致 安装 发 生 错 误 。 完 整 的 故障 排除 方案 
并 不 在 本 书 的 范围 内 ， 但 网 上 提供 了 解决 各 种 故障 的 很 多 材料 ( Stack Overflow 本 身 就 是 非常 优 
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质 的 信息 源 )。 
好 在 lxml 被 设计 成 与 ElementTree 包 We 兼容 ， 因 此 ， 安 装 Ixml 对 
本 节 来 说 并 不 是 特别 重要 。 这 里 我 们 建议 尽量 尝试 安装 ， 如 果 情 况 变 得 很 复杂 ， 那 么 就 退回 来 ， 
不 用 过 多 担心 。 实 际 上 ， 如 果 lxml 缺失 ， 以 下 陶 未 喜 以 让 回 以 使 用 A 



































# Chap06/stack_xml2json.py 
import json 
from argparse import ArgumentParser 
from bs4 import BeautifulSoup 
Sy 
from lxml import etree 
except ImportError: 
# 如 果 未 安装 ]-xml， 退 回 使 用 ElementTree 
import xml.etree.ElementTree as etree 


def get_ parser(): 
parser = ArgumentParser () 


parser.add argument ('--xml') 
parser.add_argument ('--json') 
parser.add _ argument ('--clean-post', 


default=False, 
action='store_true') 
return parser 


def clean post (doc): 





ep 
docetl "Tags"] cdocel Tagea ll replacde(t' Sey Wm) 
doc['Tags'] = doc['Tags'] .replace('<', '') 
doet Tags'] sdootl "Tag3'] replacet ys, ") 
except KeyError: 
pass 
soup = BeautifulSoup(doc['Body'], 'html.parser') 
doc['Body'] = soup.get_ text(" ", strip=True) 


return doc 


if marme Sa" MLN 
parser = get_parser() 
args = parser.parse_args() 





xmldoc = etree.parse (args.xml) 
entity = xmldoc.getroot() 
with open(args.json, 'w') as fout: 
for row in entity: 
doOG: dLGt (tow attrLib) 
if args.clean post: 
doc = clean post (doc) 
fout.write("{}\n".format (json.dumps (doc))) 


对 于 lxml 非常 重要 的 一 点 是 , 加 入 try/except 模块 来 捕获 ImportError。 当 尝试 导 人 一 
个 不 在 Python 路 径 中 的 包 / 模 块 时 ， 就 会 发 生 这 种 异常 。 
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stack_xml2json.py 脚本 再 次 用 ArgumentParser 来 捕获 命令 行 参数 。 这 段 代 码 使 用 了 
一 个 可 选 的 --clean-post 标记 ， 因 此 我 们 可 以 区 别 posts 实体 和 其 他 实体 ， 其 中 posts 实体 
需要 一 些 特殊 的 处 理 ， 我 们 稍 后 会 介绍 这 一 点 。 


例如 ， 将 Movies & TV 数据 集中 的 标签 文件 转换 为 ION， 可 以 使 用 以 下 命令 。 











$ python Stack_xm12json.pYy --xml movies.stackexchange 5.com --json 
movies.tags.jsonl 


以 上 命令 会 生成 moviestagsjsonl 文件 ， 其 中 每 个 标签 都 表示 为 在 一 行 中 的 JSON 文档 。 我 
们 用 Bash 提示 符 简单 地 审查 该 文件 。 

$ we -1 movies.tags.jsonl 

以 上 命令 计算 文件 中 的 行 数 ， 即 标签 的 数量 。 

2218 movies.tags.jsonl 

如 果 想 要 审查 第 一 个 JSON 文档 ， 即 文件 的 第 一 行 ， 使 用 以 下 命令 。 


$ head -1 movies.tags.jsonl 























输出 结果 如 下 所 示 。 
{"Count": "108", "WikiPostId": "279", "Id": "1", "TagName": "comedy", 
"ExcerptPostId": "280"} 














该 脚本 用 1xml .etree 解析 XML 文档, 并 放 入 xmldoc 变量 , 该 变量 中 存放 文档 的 一 种 树 
结构 表示 ， 使 用 的 是 ElementTree 实例 。 为 了 获取 树 中 的 特定 对 象 ， 我 们 使 用 getroot () 方 
法 作为 项 的 节点 , 从 该 节点 开始 迭代 每 一 行 。 该 方法 返回 的 是 一 个 Element 对 象 , 存放 在 posts 
变量 中 。 正 如 前 面 描述 的 ,数据 存档 中 的 每 个 文件 都 有 同样 的 结构 ， 其 中 根 元 素 是 实例 名 称 ( 如 


«tags>、 <posts> 等 ja 


为 了 获取 给 定 实体 的 单独 的 项 ( 即 对 应 的 行 )， 可 以 用 一 个 常规 的 for 循环 从 根 元 素 开始 迭 
代 。 行 也 是 Element 类 的 实例 。 从 XML 转换 到 JSON 需要 将 元 素 属 性 转 存 到 一 个 字典 中 。 这 一 
步 是 通过 简单 地 将 row.attrib 对 象 映射 到 一 个 aict 实现 的 ， 这 样 可 以 序列 化 JSON。 然 后 可 
以 再 通过 json .dumps () 将 该 字典 转 存 到 输出 文件 中 。 


正如 前 面 提 到 的 ，posts 实体 需要 特殊 的 处 理 。 当 用 这 段 代 码 将 帖子 转换 成 JSON 后 ,我 们 
还 需要 额外 的 --clean-post 参数 。 


$ python stack xml2json.py --xml movies.stackexchange 4.com --json 
movies.posts.jsonl --clean-post 


该 命令 产生 movies.posts.jsonl 文件 。 额外 的 标记 会 调用 clean_post () 函数 ,对 包含 单个 帖 
子 的 字典 进行 数据 清洗 。 具 体 来 说 ， 需 要 清洗 的 属性 是 rags (针对 问题 ) 和 Body ( 针对 问题 和 
回答 )。 
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Tags 属性 是 <tagl1><tag2>. . .<tagN> 格 式 中 的 一 个 字符 串 ， 这 里 的 尖 括 号 用 于 分 隔 每 个 
标签 。 通过 去 除 每 个 标签 的 括号 并 加 上 空格 , 我 们 可 以 简化 之 后 检索 标签 名 称 的 过 程 。 例如, 一 个 
影 问题 可 以 被 标记 为 喜剧 和 浪漫 剧 。 在 清洗 前 , 这 里 Tags 属性 的 值 就 是 <comedy><romance>， 
清洗 后 ,标签 会 转换 为 comedy romance。 转 换 的 代码 包含 在 一 个 捕获 KeyError 的 try/except 
模块 中 ; 当 Tags 键 没有 出 现在 文档 中 时 ， 它 就 会 抛 出 异常 ， 也 就 是 说 ， 当 个 我 们 处 理 回答 时 就 
会 抛 出 异常 ( 因为 只 有 问题 有 标签 )。 


接 下 来 的 步骤 是 用 Beautiful Soup 抽取 文本 。 实 际 上 ，XML 中 偶尔 会 包含 一 些 HTML 代码 ， 
这 些 代 码 是 关于 段落 格式 的 ， 我 们 并 不 需要 用 这 些 信 息 来 分 析 问 题 的 文本 内 容 。Beautiful Soup 
中 的 get_text () 函数 会 去 除 这些 HTML 代码 ， 并 返回 我 们 需要 的 文本 。 


6.4 问题 标签 的 文本 分 类 


本 节 是 关于 监督 学 习 的 。 我 们 把 向 问题 分 配 标签 定义 为 文本 分 类 问题 ,并 将 文本 分 类 问题 应 
用 于 来 自 Stack Exchange 的 问题 数据 集 。 


在 详细 介绍 文本 分 类 前 ， 我 们 首先 思考 一 下 来 自 Movies & TV Stack Exchange 网 站 的 以 下 问 
题 (问题 的 标题 和 正文 部 分 被 合并 了 )。 


“在 电视 剧 《 豪 斯 医生 》 的 哪 一 集 里 豪 斯 医生 座 了 一 个 女人 通过 假死 欺骗 团队 ? 我 
记得 有 一 个 (据说 已 经 死亡 的 ) 女人 醒 来 并 且 和 豪 斯 医生 击 掌 庆祝 。 是 哪 一 集 来 着 ? ” 


以 上 问题 询问 了 热 播 电 视 剧 《 豪 斯 医生 》 特 定 剧 集 的 详细 信息 。 正 如 前 面 介 绍 的 ，Stack 
Exchange 上 的 问题 都 会 被 打上 标签 , 这 样 可 以 快速 地 识别 问题 的 主题 。 用 户 给 这 个 问题 打 的 标签 
是 house 和 igentify-this-episode: 第 一 个 标签 指明 了 电视 剧本 身 ， 第 二 个 标签 描述 了 问 
题 的 性 质 。 有 些 人 可 能 认为 只 用 一 个 标签 ( 这 里 使 用 house ) 来 标记 问题 就 已 经 足够 描述 其 主题 。 
与 此 同时 , 我 们 可 以 看 到 , 这 两 个 标签 并 不 是 相互 排斥 的 , 因此 多 个 标签 有 助 于 更 好 地 表达 问题 。 


虽然 出 于 更 好 地 理解 文档 的 主题 而 为 文档 分 配 标签 看 起 来 非常 直观 ， 但 这 确实 是 一 个 将 项 
(真实 对 象 、 人 、 国 家、 概念 等 ) 分 配 到 类 的 长 期 存在 的 问题 。 作 为 研究 的 一 个 领域 ， 分 类 涉及 
多 个 学 科 ， 从 哲学 到 计算 机 科学 ， 再 到 商业 管理 。 在 本 书 中 ， 分 类 被 视 为 一 个 机 器 学 习 问 题 。 




















































































































6.4.1 监督 学 习 和 文本 分 类 


监督 学 习 是 从 打 标 签 的 训练 数据 中 推断 函数 的 一 个 机 器 学 习 领 域 。 作 为 监督 学 习 的 一 个 特定 
类 型 ， 分 类 的 用 途 是 基于 训练 数据 以 及 训练 数据 属于 哪 一 类 ， 将 新 的 项 分 配 到 正确 的 类 。 


分 类 的 实际 示例 如 下 所 示 。 
口 邮件 过 滤 : 确定 一 封 新 的 电子 邮件 是 否 为 垃圾 邮件 
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口 语言 识别 : 自动 检测 文本 的 语言 
口 类 型 识别 : 自动 检测 文本 的 类 型 /主题 


这 些 示 例 描 述 了 分 类 的 不 同 变 体 。 


口 垃圾 邮件 过 滤 是 一 个 二 元 分 类 的 任务 ， 因 为 只 有 两 个 可 能 的 类 : 是 垃圾 邮件 或 者 不 是 垃 

圾 邮件 。 这 也 是 一 个 一 元 标签 分 类 问题 ， 因 为 只 能 用 一 个 标签 来 描述 给 定 的 文档 。 

口 语言 检测 可 以 用 不 同 的 方法 实现 。 这 里 假设 一 篇 文档 只 使 用 一 种 语言 ， 那 么 语言 识别 也 
是 一 个 一 元 标签 分 类 问题 。 就 类 的 数量 来 说 ， 也 可 以 将 其 看 作 一 个 二 元 分 类 问题 ( 例 
如 ,文档 是 否 用 英文 撰写 ) ， 但 对 其 最 好 的 描述 可 能 还 是 多 元 分 类 问题 ， 即 类 的 数量 大 
于 2， 而 且 文 档 可 以 分 配 到 任意 一 类 。 

口 最 后 ， 类 型 识别 〈 或 主题 分 类 ) 是 一 个 典型 的 多 元 分 类 和 多 标签 问题 : 可 能 的 类 的 数量 

大 于 2， 并 且 同 一 篇 文档 可 以 分 配 到 多 个 类 别 ( 正如 《 豪 斯 医生 》 的 问题 示例 ) 。 


作为 监督 学 习 的 特定 类 型 ,分 类 需要 训练 数据 ， 即 带 有 正确 分 类 标签 的 数据 实例 。 一 个 分 类 
恬 在 学 习 (或 训练 ) 和 预测 这 两 个 阶段 运行 ， 如 图 6-4 所 示 。 













































































学 习 
机 器 学 习 算 法 
预测 








预测 标签 


图 6-4 ”监督 学 习 的 通用 框架 














在 学 习 阶 段 ， 将 训练 数据 提供 给 机 器 学 习 算 法 。 因 此 ， 算 法 的 输入 是 部 分 字段 的 (item 
labels) 对 ,其 中 给 定 项 的 正确 标签 是 已 知 的 。 这 个 过 程 构建 了 分 类 器 模型 ， 接 下 来 该 模型 为 新 
的 数据 预测 标签 。 在 这 个 阶段 ， 输 入 是 一 个 新 的 项 ， 输 出 是 通过 算法 分 配给 该 项 的 标签 。 


在 构建 分 类 模型 的 过 程 中 ， 机 器 学 习 算法 关注 一 些 元 素 ， 以 学 习 如 何 分 类 文档 。 
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在 机 带 学 习 中 ， 表示 文档 ( 更 一 般 地 说 是 对 象 ) 的 一 种 常见 方式 是 用 一 个 维 向 量 , 向 量 的 
每 一 个 元 素 称 作 特征 。 从 原始 数据 构建 此 类 向 量 的 过 程 通常 尽量 表现 更 多 的 信息 , 该 过 程 也 称 作 
特征 抽取 或 特征 工程 〈 当 这 个 步骤 中 涉及 专家 知识 时 ， 多 使 用 后 者 )。 


从 实用 的 角度 来 看 , 选择 正确 的 特征 并 用 正确 的 方式 来 表示 它们 能 极 大 提升 机 器 学 习 算法 的 
性 能 。 通常 情况 下 ,可 以 用 一 组 很 明显 的 特征 来 获得 较 好 的 性 能 。 通 过 直觉 来 测试 不 同方 法 的 迭 
代 试 错 ( trial-and-error ) 过 程 经 常 出 现在 开发 的 早期 阶段 。 在 文本 分 析 的 情境 下 ， 一 开始 通常 采 
用 词 袋 方 法 ， 即 考虑 单词 的 频率 。 

为 了 清楚 从 文档 到 向 量 的 过 程 ， 我 们 来 思考 表 6-4 所 示 的 示例 。 这 里 ， 两 个 文档 的 示例 语 料 
以 原始 和 向 量化 的 方式 展现 。 



































表 6-4 ”从 文档 到 向 量 














原始 文档 
Doc1l John is a programmer. 
Doc2 John likes coding. He also likes Python. 
向 量化 文档 
Doc!l [1, 1, 1, 1, 0, 0, 0, 0, 0] 
Doc2 [1, 0, 0, 0, 2, 1, 1, 1, 1] 
特征 [John, is, a, programmer, likes, coding, he, also, Python] 




















在 以 上 示例 中 ， 每 个 文档 的 向 量化 版 本 包含 9 个 元 素 。 语 料 中 不 同 单词 的 数量 表示 向 量 的 维 
度数 。 虽 然 这 里 并 没有 考虑 单词 在 原始 文档 中 出 现 的 语法 顺序 , 但 向 量 中 元 素 的 顺序 非常 重要 。 
例如 , 每 个 向 量 中 的 第 一 个 元 素 表示 单词 John 、 第 二 个 元 素 表示 is、 第 五 个 元 素 表示 likes, 等 等 。 


这 里 的 每 个 单词 用 其 原始 频率 表示 。 其 他 常用 的 方法 还 包括 二 元 表示 (所 有 非 零 的 次 数 设置 
为 1， 仅 仅 表 示 该 单词 在 文档 中 出 现 了 )， 以 及 一 些 更 复杂 的 统计 方法 ， 如 TF-IDF。 


从 更 高 的 视角 来 看 ， 从 文档 创建 向 量 的 任务 非常 直接 ， 但 需要 一 些 非常 琐碎 但 重要 的 操作 ， 
包括 对 文本 的 词 项 化 和 归 一 化 。 

好 在 scikit-leam 提供 了 一 些 帮 助 生 成 文档 向 量 的 易 用 工具 。countVvectorizer 和 
TfidfVectorizer 类 就 是 我 们 需要 的 实用 工具 。 它 们 都 属于 feature_extraction.text 子 
包 ， 因 此 可 以 用 以 下 代码 导入 。 


from sklearn.feature extraction.text import CountVectorizer 
from sklearn.feature extraction.text import TfidfVectorizer 


具体 来 说 ，countVectorizer 计算 的 是 原始 频率 和 二 元 表示 ( binary 属性 默认 设置 为 
False)， 而 Tftidqfvectorizer 会 将 原始 的 频率 转换 为 TF、TF-IDF 或 归 一 化 的 TF-IDF。 向 量 
的 结果 都 会 随 着 可 能 传人 构造 器 的 一 些 参数 而 改变 。 


以 下 是 一 个 使 用 Tfigdfvectorizer 类 的 示例 。 
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>>> from sklearn.feature extraction.text import TfidfVectorizer 
>>> corpus = [ 
。 "Peter is a programmer.", 
.. "Peter likes coding. He also likes Python" 
。] 
>>> Vectorizer = TfidfVectorizer() 
>>> Vectors = Vectorizer.fit transform(corpus) 
>>> VectorS 
<2x8 sparse matrix of type '<class 'numpy.float64'>' 
with 9 stored elements in Compressed Sparse Row format> 
>>> vectors[0] 
<1x8 sparse matrix of type '<class 'numpy.float64'>' 
with 3 stored elements in Compressed Sparse Row format> 
>>> vectors[1] 
<1x8 sparse matrix of type '<class 'numpy.float64'>' 
with 6 stored elements in Compressed Sparse Row format> 
>>> print (vectors) 
(0, 6) 0.631667201738 
(0, 3) 0.631667201738 
(0, 5) 0.449436416524 
(1, 7) 0.342871259411 
(1, 0) 0.342871259411 
(1, 2) 0.342871259411 
(1, 1) 0.342871259411 
(1, 4) 0.685742518822 
(1, 5) 0.243955725 
>>> vectorizer.get feature names() 
['also', 'coding', 'he', 'is', 'likes', 'peter', 'programmer', 'python'] 
可 以 观察 到 ， 正 如 我 们 所 预料 的 那样 ， 向 量化 操作 默认 执行 分 词 , 但 单词 a 并 没有 出 现在 特 
征 列表 中 ( 实际 上 ， 向 量 是 8 维 的 ， 而 不 是 我 们 前 面 介绍 的 9 维 )。 
这 是 因为 默认 的 词 项 生成 过 程 用 一 个 正则 表达 式 来 捕获 所 有 大 于 等 于 2 个 字母 符号 的 词 项 ， 
并 将 标点 符号 和 空格 作为 分 隔 符 。 默 认 情 况 下 ， 词 项 会 归 一 化 为 小 写 形式 。 
以 下 列举 了 一 些 会 影响 Tfidfvectorizer 的 有 趣 属性 。 





D tokenizer: 可 调用 来 重 写 分 词 步骤 
口 ngram_range: 一 个 元 组 (min_n, max_n)， 可 用 来 设置 n-gram 作为 词 项 
个 单词 作为 词 项 
D stop_words: 一 个 明确 的 停 用 词 列表 (默认 不 执行 停 用 词 移 除 步 又 ) 
口 lowercase: 一 个 默认 为 True 的 布尔 值 
D min_af: 定义 最 小 的 文档 频率 阔 值 。 它 可 以 是 一 个 整 型 值 (例如 ，5 
































， 而 不 是 用 单 


出 现 了 5 次 及 5 次 以 上 ) 或 者 用 一 个 范围 在 区 间 [0.0, 1.0] 的 浮 点 值 来 表示 文档 的 比值 。 





默认 情况 下 设置 为 1， 即 没有 阔 值 











口 max_df: 定义 最 大 的 文档 频率 阐 值 。 与 min_df 类 似 ， 它 可 以 是 整 型 或 者 浮 点 
认 情 况 下 设置 为 1.0( 即 文档 的 100% ) ， 意 味 着 没有 效 值 
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口 binary: 一 个 默认 为 False 的 布尔 值 。 当 它 设置 为 True 时 ， 所 有 非 零 项 的 次 数 都 设置 
为 1， 意思 是 TF-IDF 的 TF 成 分 是 二 元 值 ， 但 最 终 的 取 值 仍然 受 IDF 值 影响 
Duse_iaf: 一 个 默认 为 True 的 布尔 值 。 当 它 设置 为 False 时 ，IDF 权重 会 被 禁用 

口 smooth_igf: 一 个 默认 为 True 的 布尔 值 。 对 文档 频率 启用 +1 平滑 可 以 防止 除 零 错误 
发 生 

口 sublineatr_tf: 一 个 默认 为 False 的 布尔 值 。 当 它 设置 为 True 时 ,使 用 次 线性 TF 值 
缩放 ， 即 用 1+log(TF) 来 替换 TF 值 


下 一 节 介 绍 了 三 个 常用 的 分 类 方法 ， 这 些 方法 都 是 集成 在 scikit-learn 中 的 。 






































6.4.2 分 类 算法 


本 节 将 简要 列 出 三 种 用 于 文本 分 类 的 常见 机 器 学 习 算 法 : 朴素 贝 叶 斯 ( naive Bayes，NB )、 
K 最 邻近 ( k-nearestneighbor，k-NN) 和 支持 向 量 机 ( support vectormachine，SVM )。 本 节 的 目的 
不 是 深入 探讨 这 些 算法 的 细节 ， 而 是 简单 地 介绍 scikit-learn 中 可 以 直接 调用 的 模块 。 查 看 
scikit-learn 的 文档 很 有 价值 , 因为 scikit-learn 提供 了 丰富 的 算法 ( 监督 学 习 算 法 : http://scikit-learn. 
org/stable/supervised learning.html )。 


值得 注意 的 是 , 不 同 算法 对 于 不 同 数据 会 呈现 不 同 的 表现 , 因此 , 在 开发 分 类 系统 的 过 程 中 ， 
我 强烈 建议 你 尝试 不 同 的 算法 实现 。scikit-learn 算法 提供 的 接口 非常 简单 易 用 ， 只 修改 一 两 行 代 
码 就 能 更 换算 法 。 

1. 朴素 贝 叶 斯 


我 们 首先 介绍 朴素 贝 叶 斯 算法 , 它 是 基于 贝 叶 斯 定理 的 分 类 器 家 族 中 的 一 员 , 假设 特征 间 是 
独立 的 〈 因 此 称 为 朴素 )。 


贝 叶 斯 定理 ( 也 称 作 贝 叶 斯 定律 或 贝 叶 斯 规则 ) 描述 的 是 一 个 事件 的 条 件 概 率 。 


































































































P(B| A)P(A) 
P(B) 


在 我 们 已 经 观察 到 事件 B 发 生 的 前 提 下 ， 等 式 左 边 的 项 是 观察 到 事件 A 的 概率 。 
为 了 将 等 式 应 用 于 具体 场景 ,我们 思考 一 下 如 下 过 滤 垃 圾 邮件 的 示例 。 


P(AIB)= 














Pl(“money” | Spam)P (Spam) 





P(Spam | “money”)= 
Ram y ) PCmoney”) 


该 等 式 展示 了 如 何 计 算 将 Spam 标签 分 配给 一 个 包含 单词 money 的 新 文档 的 概率 。 在 条 件 概 
率 下 ,该 问题 通常 描述 为 : 在 观察 到 单词 money 的 前 提 下 ， 为 这 篇 文档 分 配 Spam 标签 的 概率 是 
多 少 ? 
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通过 使 用 训练 数据 ， 可 以 在 训练 步 又 中 计算 出 等 式 右边 的 三 个 概率 。 
由 于 分 类 器 并 不 使 用 单个 单词 /特征 为 文档 分 配 特定 的 类 ， 我 们 来 思考 以 下 更 常见 的 情况 。 





Pl(d |c)P(c) 
Pl(d) 


上 述 等 式 描述 了 为 给 定 文档 4 分 配 类 c 的 概率 。 根据 独 立 性 假设 , 该 文档 被 描述 为 一 组 独立 
的 项 t 构 成 的 序列 。 由 于 特征 相互 独立 ， 概 率 P(qd|c) 可 以 写成 文档 4 中 每 个 项 1 的 Pdlo) 的 乘积 。 

细心 的 你 可 能 已 经 意识 到 , 上述 等 式 的 最 后 一 部 分 并 没有 分 母 ， 其 中 我 们 将 文档 表示 为 独立 
项 的 序列 。 这 是 一 个 简单 的 优化 ,因为 P(O) 对 不 同 的 取 值 来 说 都 是 一 样 的 ， 并 不 需要 为 了 计算 和 
比较 各 个 类 的 分 值 而 计算 处 理 。 因 此 ， 等 式 的 最 后 一 部 分 使 用 了 一 个 成 正比 符号 ， 而 不 是 等 号 。 

这 就 是 我 们 介绍 的 全 部 数学 背景 知识 , 毕竟 本 书 并 不 想 专注 于 算法 的 数学 部 分 。 如 果 感 兴趣 ， 
你 可 以 自行 深入 探究 (参考 Sebastian Raschka 撰写 的 《Python 机 器 学 习 》)。 


在 scikit-learn 中 ，naive_bayes 子 包 提供 了 对 朴素 贝 叶 斯 算法 的 支持 。 例 如 ， 多 项 式 朴素 
贝 叶 斯 分 类 需 是 文本 分 类 中 最 常用 的 分 类 髓 ， 由 MultinomialNB 类 实现 。 


P(c|d)= oc POL [Pd | c) 

































































from sklearn.naive bayes import MultinomialNB 

2.K 最 邻近 

k-NN 算法 也 是 用 于 分 类 和 回归 的 方法 。 该 算法 的 输入 包含 特征 空间 中 最 近 的 个 训练 示例 ， 
即 磊 个 最 相似 的 文档 。 算 法 的 输出 是 通过 近邻 的 大 多 数 投票 获得 的 对 特定 文档 的 分 类 标签 。 


在 训练 阶段 ,训练 集中 文档 的 多 维 向 量 表示 与 它们 的 标签 一 同 存 放 。 在 预测 阶段 ， 新 的 文档 
会 查询 与 自身 最 类 似 的 个 文档 ， 这 里 的 是 用 户 自 定 义 的 常数 。 这 个 文档 ( 最 邻近 ) 中 最 多 
的 类 就 会 被 分 配给 新 的 文档 。 


k-NN 是 一 种 非 参 数 化 方法 ， 因 为 该 算法 由 数据 ( 即 文档 向 量 ) 确定 类 型 ， 而 不 是 由 对 数据 
估计 的 参数 确定 ( 对 朴素 贝 叶 斯 来 说 ， 我 们 用 估计 的 概率 来 确定 类 型 )。 


算法 背后 的 直觉 非常 直接 ， 但 还 有 两 个 开放 问题 。 


口 如 何 计算 向 量 间 的 距离 ? 
口 如 何 选择 最 佳 的 大 值 ? 


第 一 个 问题 有 多 个 有 效 的 答案 。 最 常见 的 选项 是 欧 氏 距 离 。scikit-learn 中 默认 实现 的 是 闵 式 
距离 ， 在 scikit-leam 中 使 用 预定 义 参数 时 ， 它 就 等 同 于 欧 氏 距离 。 


第 二 个 问题 的 答案 有 些 复杂 ,取决 于 具体 的 数据 。 选 择 较 小 的 意味 着 该 算法 会 更 多 地 受 品 
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声 影响 。 选 择 较 大 的 大 值 会 使 得 算法 的 计算 复杂 度 变 大 。 一 种 常见 的 做 法 是 选择 特征 数量 n 的 平 
方 根 ， 即 k = sart (n), 但 需要 尝试 。 


在 scikit-learn 中 ，neignpbors 子 包 提供 了 对 k-NN 算法 的 支持 ， 如 下 所 示 。 





from sklearn.neighbors import KneighborsClassifier 


KneighborsClassifier 类 接收 一 些 参 数 ， 其 中 包括 k 和 distance。 想 详细 了 解 不 同 距 
离 度 量 的 可 用 选项 ， 可 以 查看 sklearn.neighbors.DistanceMetric 类 中 的 文档 。 


3. 支持 向 量 机 
SVM 是 用 于 分 类 和 回归 的 监督 学 习 模 型 。 


SVM 应 用 的 是 二 元 分 类 方法 ， 也 就 是 说 ， 新 的 文档 会 分 配 到 两 个 类 的 其 中 之 一 。 该 方法 可 
以 通过 一 对 多 或 一 对 一 方法 扩展 到 多 元 分 类 。 一 对 多 方法 给 定 的 类 会 与 其 他 所 有 类 进行 比较 , 而 
一 对 一 方法 会 考虑 到 所 有 可 能 的 分 类 。 在 一 对 多 的 方法 中 ,构建 个 分 类 器 ,这 里 n 就 是 类 的 总 
数 。 具 有 最 大 输出 值 的 类 就 是 分 配给 文档 的 类 。 在 一 对 一 的 方法 中 , 每 个 分 类 需 为 选 定 的 类 增加 
一 个 计数 需 。 最 后 ， 拥 有 最 多 投票 的 类 就 是 分 配给 文档 的 类 。 

SVM 系列 的 分 类 器 因 高 效 的 文本 分 类 效果 而 知名 ， 而 文本 分 类 任务 中 的 数据 通常 用 高 维 空 
间 表 示 。 当 数据 的 维 数 大 于 示例 数据 的 数量 时 ， 分 类 器 仍然 有 效 。 但 如 果 特 征 的 数量 远大 于 示例 
数据 的 数量 〈 即 训练 集中 只 有 较 少 文本 )， 则 该 方法 会 开 失 有 效 性 。 


正如 其 他 算法 一 样 ，SVM 算法 在 scikit-learn 中 也 有 实现 (通过 svm 子 包 ), 具体 的 导入 方法 
如 下 所 示 。 



















































































from sklearn.svm import LinearSVC 


LinearSVC 类 实现 一 个 线性 核 ， 也 就 是 其 中 一 个 可 用 的 核 函 数 。 简 单 来 说 ， 核 函数 可 以 看 
作 计 算 示 例 数据 对 之 间 相似 度 的 相似 函数 。scikit-learn 库 提 供 了 常用 核 ， 也 提供 了 定制 化 实现 。 
SVC 类 可 以 通过 kernel='1inear ' 参 数 实例 化 。 虽然 该 分 类 器 也 是 基于 一 个 线性 核 , 但 底层 的 
实现 不 同 : 这 里 svc 是 基于 SVM 的 常用 库 1ipsvM 的 ， 而 LinearSVC 是 基于 1iplinear 的 ， 
1iblinear 是 一 个 更 有 效 的 实现 ， 并 针对 线性 核 做 了 优化 。 





















































6.4.3 评估 
讨论 了 不 同 的 分 类 算法 后 ， 本 将 尝试 解决 一 个 有 趣 的 问题 : 如 何 选择 最 佳 算 法 ? 
分 类 方法 用 四 种 类 别 来 定义 分 类 天 的 结果 : 


口 该 文档 属于 类 C， 且 系统 将 其 分 配给 类 C ( 真 阳 性 ，True Positive，TP ) 
口 该 文档 不 属于 类 C， 但 系统 将 其 分 配给 类 C ( 假 阳 性 ，False Positive，FP ) 
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口 该 文档 属于 类 C, 但 系统 并 未 将 其 分 配给 类 C ( 假 阴 性 ，False Negative，FN ) 
口 该 文档 不 属于 类 C， 且 系统 并 未 将 其 分 配给 类 C ( 真 阴性 ，True Negative，TN ) 


通常 用 名 为 混淆 矩阵 的 表格 表示 这 些 结 果 。 对 于 二 元 分 类 问题 ,混淆 矩阵 如 表 6-5 所 示 。 


表 6-5 混淆 矩阵 
































预测 类 : C 预测 类 : 不 是 C 
正确 类 : C TP FN 
正确 类 : 不 是 C FP TN 





混淆 矩阵 可 以 扩展 ， 以 用 于 多 元 分 类 的 问题 。 一 旦 获得 测试 集中 所 有 样 例 数据 的 结果 ， 就 可 
以 计算 不 同 的 性 能 指标 了 ， 如 下 所 示 。 


口 准确 率 : 分 类 需 正 确 的 概率 是 多 少 ? 〈TP+TN ) /总 数 

口 误 分 类 率 : 分 类 器 错误 的 概率 是 多 少 ? ( FP+FN ) /总 数 

口 精确 率 : 在 分 配 到 类 C 的 数据 中 ， 分 类 器 准确 的 概率 是 多 少 ? TP/ 预 测 到 类 C 的 数量 
口 召回 率 : 类 C 的 文档 中 被 准确 识别 的 比率 是 多 少 ? TP/ 类 C 的 数量 


这 些 指标 都 提供 一 个 在 0~1 的 值 。 准确 率 和 召回 率 通 常会 合并 为 名 为 调和 平均 (也 称 作 F 值 
或 Fl ) 的 单个 值 。 


在 多 元 分 类 场景 中 ， 不 同类 的 F 值 可 以 通过 多 种 方式 进行 平均 。 典 型 的 方法 称 作 micro-F1， 
其 中 每 个 决策 都 具有 相同 的 平均 权重 。 在 另 一 种 方法 macro-Fl 中 ， 每 个 类 都 具有 相同 的 平均 权 


重 (参见 Fabrizio Sebastiani 撰写 的 Machine Learning in Automated Text Categorization )。 


到 目前 为 止 , 我 们 在 假设 已 有 分 割 好 的 训练 集 和 测试 集 ( 运行 评估 的 数据 集 ) 的 前 提 下 介绍 
了 评估 方法 。 一 些 非常 著名 的 数据 集 清晰 标注 了 训练 集 /测试 集 的 分 割 ， 因 此 研究 者 可 以 重 现 结 
果 。 有 时 这 种 分 割 并 不 明显 ， 因 此 需要 预 留 一 部 分 标注 数据 用 于 测试 。 较 小 的 测试 集 意味 着 评 佑 
可 能 不 太 准 确 ， 而 较 大 的 数据 集 意味 着 训练 阶段 的 数据 较 少 。 


一 种 可 行 的 解决 方案 叫 作 交 叉 检验 , 其 中 最 常用 的 方法 是 k 折 检验 。 其 基本 思想 是 每 次 用 不 
同 的 训练 /测试 分 割 来 多 次 重复 评估 过 程 ， 然 后 取 一 个 聚合 值 (如 平均 值 )。 


例如 , 我 们 可 以 用 10 折 检 验 将 数据 集 分 割 成 10 个 不 同 的 子 集 。 我 们 将 不 断 选择 其 中 的 一 个 
折 作 为 测试 集 , 并 将 剩余 的 折合 并 为 一 个 训练 集 。 在 单个 折 上 运行 评估 后 , 保存 结果 并 进行 下 一 
次 迭代 。 现 在 第 二 个 折 变 成 测试 集 ， 其 他 9 个 折 变 成 训练 集 。 在 10 次 迭代 后 ， 对 所 有 的 评估 值 
取 平 均 。k 折 检验 常用 的 方法 是 10 折 (90/10 的 训练 集 / 测 试 集 分 割 ) 和 5 折 ( 80/20 的 训练 集 / 测 
试 集 分 割 ) 使 用 交叉 检验 的 主要 优点 是 ， 即 使 对 于 小 数据 集 ， 我 们 也 有 信心 可 以 获得 较 高 的 准 
确 率 。 
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介绍 完 分 类 、 相 关 算 法 和 评估 后 ,本 节 会 将 我 们 学 到 的 方法 应 用 于 Movies&&TV 网 站 的 问题 


由 于 用 标签 名 来 表示 类 , 我 们 将 挑选 数据 集 以 避免 过 于 稀少 而 难以 捕捉 的 类 别 。 我 们 设 定 阔 
值 为 10， 也 就 是 说 ， 忽 略 出 现 次 数 少 于 10 的 标签 。 该 闭 值 可 以 任意 设 定 ， 也 可 以 拿 其 他 数字 来 
实验 。 此 外 ， 帖 子 文件 婚 包 含 问题 又 包含 答案 ， 但 我 们 只 关注 问题 (可 以 从 postrypera-'l， 
时 性 看 出 来 )， 因 此 这 里 丢弃 所 有 的 回答 。 


以 下 脚本 读 取 包含 标签 和 帖子 的 JSON Lines 文件 ， 并 生成 一 个 只 带 有 标签 的 JSON Lines 文 
件 ， 且 标签 的 频率 满足 我 们 的 阐 值 要 求 。 


Chap06/stack_classification prepare dataset .py 
import os 

import json 

from argparse import ArgumentParser 






































def get_parser(): 
parser = ArgumentpParser () 


parser.add_argument ('--posts-file') 
parser.add_argument ('--tags-file') 
parser.add_ argument ('--output') 

( 


parser.add_argument 
return parser 


'--min-df', type=int, default=10) 


if name., == '_ main _': 
parser = get_parser() 
args = parser.parse_args() 








valiqd tags = [] 
with open(args.tags_file, 'r') as f: 
fo Linie, Tri .£2 
tag = json.loads (line) 
if int (tag['Count']) >= args.min df: 
valid_ tags.append (tag['TagName']) 


with open(args.posts_file, 'r') as fin, open(largs.output, 'w') as fout: 
fOr~ linie Tn fin 
doc = json.loads (line) 


if OC TPOStTyoeLd "Se 才 本 
doc “tags = dd0cL "Tags] ssplit(C" '™) 
tags_to_store = [tag for tag in doc tags 


if tag in valid tags] 
if tags_to_store: 
doc['Tags'] = ' '.join(tags_to_store) 
fout.write("{}\n".format (json.dumps (doc))) 


该 脚本 假设 我 们 已 经 将 标签 和 帖子 文件 从 XML 格式 转换 为 了 JSON Lines 格式 。 
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可 以 用 以 下 命令 执行 这 个 脚本 。 


$ Python stack classification prepare dataset.py \ 
--tags-file movies.tags.jsonl \ 
--posts-file movies.posts.jsonl \ 
--output movies.questions4classification.jsonl \ 
--min-df 10 


这 个 脚本 输出 的 文件 movies.questions4classification.jsonl 只 包含 满足 条 件 的 标签 对 应 的 问题 。 
我 们 可 以 看 到 它 与 原始 的 帖子 文件 的 差别 。 





$ wc -1 movies.posts.jsonl 
28146 movies.posts.jsonl 

$ wc -1 movies.questions4classification.jsonl 
8413 movies.questions4classification.jsonl 


接 下 来 对 Movies & TV 数据 集 进行 分 类 。 遵 循 前 面 讨论 的 内 容 ， 我 们 将 使 用 一 个 10 折 交 叉 
检验 。 也 就 是 说 ， 问 题 语 料 将 分 为 10 折 ， 分 类 任务 将 用 90% 的 数据 做 训练 ， 并 用 剩 下 的 10% 做 
测试 ， 以 进行 10 次 迭代 ， 每 次 迭代 都 用 不 同 折 进 行 测试 。 











# Chap06/stack_classification predict tags.py 

import json 

from argparse import ArgumentParser 

from nltk.corpus import stopwords 

from sklearn.feature extraction.text import TfidfVectorizer 
from sklearn.svm import LinearSVC 

from sklearn.multiclass import OneVsRestClassifier 
from sklearn.metrics import f1_ score 

from sklearn.preprocessing import MultiLabelBinarizer 
from sklearn.cross_validation import cross_val_score 
import numpy as np 








def get_parser(): 
parser = ArgumentParser() 


parser.add_argument ('--gquestions') 
parser.add _ argument ('--max-df', default=1.0, type=float) 
parser.adgd argument ('--min-df', default=1, type=int) 


return parser 


生生 name = main 
parser = get_parser() 
args = parser.parse_args() 





stop_list = stopwords.words('english') 


all_questions = [] 
all_labels = [|] 
with openl(args.questions, 'r') as f: 
for line in f: 
doc = json.loads (line) 
question = "{} {}".format (doc['Title'], doc['Body']) 
all_questions.append (question) 
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all_labels.append(doc['Tags'] .split(' ')) 


vectorizer = TfidfVectorizer (min df=args.min df, 
stop_words=stop_list, 
max_df=args.max_df) 

xX = vectorizer.fit transform(all_questions) 

mlb = MultiLabelBinarizer() 

y = mlb.fit_transform(all_labels) 

classifier = OneVSRestClassifier(LinearSVC () ) 





scores = cross_val_score(classifier, 
X, 
Y=Y, 
v= LO 
SCOring=" f1_ micro) 
print ("Average F1: {}".format (np.mean(scores))) 

















stack_classification predict_tags.py 脚本 通过 ArgumentParser 接收 3 个 参数 。 
第 一 个 参数 --questions 是 必 备 的 ， 用 于 指定 包含 问题 的 .jsonl 文件 。 另 外 两 个 参数 --min-df 
和 --max-df 可 以 在 构建 特征 向 量 时 影响 分 类 器 的 行为 。 这 两 个 参数 的 默认 值 不 影响 特征 抽取 的 
过 程 ， 因 为 这 两 个 值 分 别 设 定 为 min_af=1 和 max_af=1.0,， 也 就 是 说 ， 所 有 特征 (单词 ) 都 将 
被 包括 在 内 。 


可 以 用 以 下 命令 执行 这 个 脚本 。 



































$ Python stack classification predict tags.py \ 
--questions movies.questions4classification.jsonl 


输出 结果 如 下 所 示 。 


Average F1: 0.6271980062798452 


我 们 来 详细 查看 该 脚本 , 从 命令 行 解析 参数 后 , 用 NLTK 将 一 个 停 用 词 列表 导入 stop_1ist 
变量 。 这 是 一 个 常用 英语 停 用 词 列表 ( 约 有 130 个 单词 ， 其 中 包括 冠 词 、 连 词 、 代 词 等 ) 下 一 
步 是 读 取 输 入 文件 ， 将 每 个 JSON 文档 导入 内 存 ， 并 创建 一 个 输入 到 分 类 器 的 数据 结构 。 此 外 ， 
我 们 将 在 a11_auestions 变量 创建 一 个 所 有 文档 的 列表 , 其 中 每 个 问题 的 标题 和 正文 内 容 是 拼 
接 起 来 的 。 同 时 ， 我 们 将 追踪 a11_1abels 变量 中 的 原始 标签 ( 即 分 类 器 的 标签/ 类 )。 

对 于 特征 抽取 步 又, 我们 将 创建 rfiafvectorizer 的 一 个 实例 , 将 停 用 词 列表 、 最 小 文档 
频率 和 最 大 文档 频率 作为 构造 器 的 参数 。 向 量 器 将 为 分 类 器 创建 特征 向 量 ， 从 原始 文本 开始 , 将 
每 个 单词 转化 为 相应 的 TF_IDF 值 。 停 用 词 不 包括 在 向 量 中 。 类 似 地 ， 不 满足 规定 频率 要 求 的 音 
词 也 会 被 丢弃 。 


从 原始 文本 到 向 量 的 转化 通过 向 量 需 的 fit_transform() 方 法 实现 。 


由 于 我 们 想 要 实现 多 标签 , 为 了 正确 地 将 所 有 标签 映射 到 二 元 向 量 , 还 需要 一 个 额外 的 步骤 。 
这 是 必需 的 ,因为 分 类 顺 期 望 的 是 一 个 二 元 向 量 列 表 作 为 输入 ， 而 不 是 一 个 类 名 称 列 表 。 为 了 理 
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解 MultiLabelBinarizer 如 何 实 现 转换 ， 可 以 运行 以 下 代码 。 


>>> from sklearn.preprocessing import MultiLabelBinarizer 
>>> mlb = MultiLabelBinarizer() 


>>> labels = [['house', 'drama'], ['star-wars'], ['drama', 'uk']] 
>>> y = mlb.fit transform(labels) 
>>> Y 


array([[1, 1, 0, 0], 
[0, 0, 1, 0], 
[1, 0, 0, 1]]) 
>>> mlb.classes_ 
array(['drama', 'house', 'star-wars', 'uk'], dtype=object) 


至 此 , 语 料 和 标签 都 转换 成 了 分 类 器 可 以 理解 的 格式 。 关 于 命名 的 注意 事项 : 以 大 写 x 表示 
语 料 、 小 写 y 表示 标签 是 机 内 学 习 中 的 常见 惯例 , 机 带 学 习 教 材 中 经 常 出 现 这 一 点 。 如 果 不 喜 欢 
单个 字母 的 变量 ， 也 可 以 对 其 重新 命名 。 


对 于 分 类 器 , 我 们 选择 线性 核 的 SVM 分 类 器 Linearsvc。 如 果 感 兴趣 ，, 也 可 以 尝试 其 他 类 
型 的 分 类 器 。 由 于 该 任务 是 一 个 多 元 标签 分 类 任务 ， 我 们 将 选择 一 对 多 的 方法 ， 该 方法 由 
OneVsRestClassifier 类 实现 , 它 将 一 个 实际 分 类 需 实 例 作为 第 一 个 参数 , 并 用 其 执行 所 有 的 
分 类 任务 。 


最 后 一 个 步骤 就 是 分 类 。 正如 前 面 介 绍 的 , 我 们 希望 做 交叉 检验 , 不 是 直接 使 用 分 类 右 对 象 ， 
而 是 将 它 与 数据 向 量 、 标 签 和 一 些 其 他 参数 一 同 传递 给 cross_val_score () 函数 。 该 函数 的 目 
的 是 根据 cv=10 参数 ( 意味 着 使 用 10 折 ) 迭代 数据 、 执 行 分 类 ， 并 最 后 显示 评估 值 ( 本 例 使 用 
的 是 微 平均 的 F1 值 )。 

交叉 检验 函数 的 返回 值 是 一 个 NumPy 数组 ， 每 个 折 对 应 一 个 值 。 通 过 使 用 numpy .mean () 
函数 ， 我 们 可 以 聚合 这 些 值 并 显示 它们 的 算术 平均 值 。 

值得 注意 的 是 ,最 后 的 Fl 值 约 为 0.62, 不 好 也 不 坏 。 它 告诉 我 们 分 类 系统 还 远 远 不 够 完美 ， 
但 截至 目前 ， 尚 不 明确 性 能 是 否 还 有 提升 的 空间 ， 以 及 如 何 提升 。 这 里 的 评估 分 数值 并 没有 告诉 
我 们 分 类 器 的 具体 表现 如 何 , 或 者 是 否 任务 太 难以 至 于 无 法 达到 较 好 的 性 能 。 聚 合 的 评估 值 是 比 
较 不 同 分 类 器 性 能 的 一 种 方法 ， 也 能 够 评估 同一 个 分 类 器 在 设置 不 同 参 数 时 的 性 能 。 

我 们 可 以 指定 一 个 额外 的 参数 来 过 滤 特 别 稀少 的 特征 ， 并 重新 运行 代码 。 














































































































$ Python stack classification predict tags.py \ 
--questions movies.questions4classification.jsonl \ 
--min-df 5 
通过 设置 最 小 文档 频率 为 可 以 将 特征 频率 的 长 尾 分 布 截断 的 5， 我 们 可 以 得 到 以 下 输出 。 


Average F1: 0.635184845312832 


这 个 示例 表明 , 对 配置 进行 简单 的 调整 可 以 得 到 不 同 的 结果 ( 好 在 这 里 得 到 了 更 好 的 结果 )。 

















6.4.5 在 实时 应 用 中 藤 入 分 类 器 


前 一 节 通 过 学 术 思 维 介绍 了 如 何 解决 分 类 问题 :从 一 组 预先 标记 的 文档 开始 , 运行 一 批 实验 ， 
执行 交叉 检验 以 获得 评估 度量 值 。 如 果 我 们 想 用 不 同 的 分 类 央 来 实验 、 调 整 特征 抽取 过 程 ， 并 理 
解 哪个 分 类 器 以 及 哪个 配置 对 于 给 定 的 数据 集 效 果 最 佳 ， 那 么 这 肯定 是 一 个 有 趣 的 过 程 。 

本 闻 将 进一步 讨论 将 分 类 器 〈 更 一 般 地 说 是 一 个 机 器 学 习 模型 ) 嵌入 应 用 的 一 些 简单 步骤 ， 
瞬 入 后 的 分 类 器 可 以 与 用 户 实时 交互 。 这 种 应 用 的 常见 示例 包括 搜索 引擎 、 推 荐 系统 、 垃 圾 邮件 
过 滤器 , 以 及 日 常生 活 中 可 能 用 到 的 很 多 其 他 智能 应 用 , 但 平时 我 们 可 能 意识 不 到 这 些 应 用 使 用 
了 机 需 学 习 技 术 。 


本 节 创 建 的 应 用 将 执行 以 下 步骤 。 


口 训练 分 类 天 〈 学 习 步 又 ， 线 下 运行 ) 
口 将 分 类 器 保存 在 磁盘 上 ， 以 便 可 以 从 实时 应 用 中 导入 
口 将 分 类 咒 财 入 应 用 ， 使 其 可 以 与 用 户 实时 交互 〈 预测 步骤 ， 实 时 运行 ) 


可 以 通过 以 下 脚本 实现 前 两 个 步 又 。 




































































# Chap06/stack_ classification _ save model.py 

import json 

import pickle 

from datetime import datetime 

from argparse import ArgumentParser 

from nltk.corpus import stopwords 

from sklearn.feature_ extraction.text import TfidfVectorizer 
from sklearn.svm import LinearSVC 

from sklearn.multiclass import OneVsRestClassifier 

from sklearn.preprocessing import MultiLabelBinarizer 








def get_parser(): 
parser = ArgumentpParser () 
parser.add_argument ('--questions') 
parser.add argument ('--output') 
parser.add _ argument ('--max-df', default=1.0, type=float) 
parser.add argument ('--min-df', default=1, type=int) 
return parser 


1 name, 0 
parser = get_parser() 
args = parser.parse args() 





stop_list = stopwords.words('english') 


all_questions = [] 

all_labels = [] 

with open(args.questions, 'r') as f: 
fOr Line in. €: 
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doc = json.loads (line) 

question = "{} {}".format (doc['Title'], doc['Body']) 
all_questions.append (question) 
all_labels.append(doc['Tags'] .split(' ')) 


vectorizer = TfidfVectorizer (min df=args.min df, 
stop_words=stop_list, 
max_df=args.max_df) 

X = vectorizer.fit transform(all_questions) 

mlb = MultiLabelBinarizer() 

y = mlb.fit_transform(all_labels) 


classifier = OneVSsSRestClassiftier(LinearSVC() ) 


classifier.fit (Xx, y) 
model_to_save = { 
'classifier': classifier, 
'vectorizer': vectorizer, 
"ro." "mL; 
'created at': datetime.today() .isoformat () 
} 
with open(args.output, 'wb') as 工 : 
pickle.dump (model_to_save, f£) 
以 上 代码 与 前 一 节 中 执行 的 线 下 分 类 非常 相似 。 主 要 差别 是 ,训练 分 类 器 后 , 我们 并 不 用 它 
预测 任何 事情 ， 而 是 将 它 存 在 一 个 文件 中 。 


输出 文件 的 打开 方式 是 wb 模式 ， 也 就 是 说 ,文件 指针 有 对 文件 的 写 权 限 ， 并 且 这 个 文件 是 
一 个 二 进 制 文件 ,而 不 是 纯 文本 文件 。pickle 包 将 复杂 的 Python 对 象 序列 化 为 字 节 码 ， 人 然后 存放 
在 一 个 文件 中 。 


该 模块 的 界面 和 json 包 非 常 相似 ， 通 过 简单 的 10ad () 和 dump () 函数 执行 Python 对 象 和 
文件 间 的 转换 。 我 们 不 仅仅 需要 分 类 器 ， 还 需要 向量 器 和 MultiLabelBinarizet 实例 。 因 此 ， 
我 们 使 用 model_to_save 变量 ， 该 变量 是 一 个 Python 字典 ， 用 于 存放 所 有 需要 的 数据 。 该 字 
典 的 creategd_at 键 包 含 当前 系统 的 ISO 8601 格式 的 时 间 ， 当 需要 追踪 分 类 需 的 不 同 版 本 或 者 
有 新 的 数据 并 决定 重新 训练 分 类 器 时 ， 该 时 间 很 有 用 处 。 


可 以 用 以 下 命令 运行 上 述 脚本 。 
















































































$ Python stack classification save model.py \ 
--questions movies.questions4classification.jsonl \ 
--min-df 5 \ 
--output questions-svm-classifier.pickle 


运行 后 会 生成 questions-svm-classifier.pickle 文件 ， 其 他 应 用 可 以 使 用 该 文件 。 


为 了 简洁 起 见 ， 我 们 将 从 命令 行 实现 一 个 基本 的 界面 。 同 样 的 方法 可 以 与 Web 应 用 (例如 ， 
使 用 前 面 提 到 的 Flask ) 非常 简单 地 整合 ， 以 通过 Web 界面 向 用 户 提 供 预 测 功 能 。 
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stack_classification user_input .py 脚本 实现 了 用 户 交 互 应 用 。 


# Chap06/stack_ classification user_input.py 
import sys 

import json 

import pickle 

from argparse import ArgumentParseL 


def get_ parser(): 
parser = ArgumentpParser() 
parser.add _ argument ('--model') 
return parser 


def exit(): 
print ("Goodbye.") 
sys.exit() 


生生 marme SS 人 而 有 二 站 三 
parser = get_parser() 
args = parser.parse_args() 





with open(largs.model, 'rb') as f: 

model = pickle.load(f) 
classifier = model['classifier'] 
vectorizer = model[l'vectorizer'] 
mlb = model['mlb'] 


while True: 
print ("Type your question, or type \"exit\" to quit.") 


user_input = input('> ') 

if user_input == 'exit': 
exit () 

else: 


xX = vectorizer.transform( [user_input]) 

print ("Question: {}".format (user_input)) 
prediction = classifier.predict (xXx) 

labels = mlb.inverse transform(prediction){[0]) 





labels = ', '.join(labels) 
if labels: 

print ("Predicted labels: {}".format (labels)) 
else: 


print ("No label available for this gquestion") 


该 脚本 用 ArgumentParser 读 人 命令 行 参数 --mogel ,用 于 传递 前 面 序列 化 过 的 pickle 文件 。 


脚本 还 用 前 面 介绍 过 的 pickle 接口 导入 pickle 文件 。 该 文件 是 一 个 二 进 制 文件 ， 因 此 可 以 用 
rb 模式 (r 表示 read，b 表示 binary ) 打开 。 然 后 我 们 就 可 以 接 入 前 面 生 成 的 分 类 器 、 向 量 器 和 
多 标签 二 进 制 表示 需 。 


接着 该 应 用 进入 无 限 的 while True 循环 ， 持 续 询 问 用 户 的 和 输入。 如果 运行 以 下 命令 : 





$ Python stack classification user input.py \ 
--model questions-svm-classifier.pickle 
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我 们 将 看 到 以 下 提示 : 





Type your question, or type "exit" to quit. 


> 


写 人 一 些 输入 后 ，input () 函数 会 将 这 些 输 入 读 和 人 user_input 变量 。 该 变量 用 于 检查 用 


户 是 否 输入 了 会 导致 应 用 退出 的 单词 exit。 如 果 没 有 该 单词 ， 分 类 器 将 对 用 户 输入 的 任何 文本 


执行 分 类 。 


预测 步 又 需要 将 输入 转变 为 特征 向 量 。 
























































这 是 由 向 量化 器 执行 的 。 值 得 重视 的 是 ， 


vectorizer.transform() 图 数 将 一 个 列表 ( 或 一 个 迭代 器 ) 作为 参数 , 而 不 是 将 user_input 
字符 串 直 接 作为 输入 。 可 以 将 向 量化 后 的 输入 传 和 分 类 器 的 predict () 函数 ， 然 后 执行 分 类 。 


接着 将 分 类 器 的 结果 以 可 读 的 格式 返回 给 用 户 。 这 一 阶段 的 预测 实际 上 是 一 个 NumPy 数组 ， 
表示 有 效 标签 列表 的 一 个 二 进 制 掩 码 。MultiLabelBinarizer 负责 在 训练 阶段 生成 这 个 掩 码 ， 








然后 用 inverse_transform() 函数 将 二 进 制 掩 码 映射 回 原 始 标 签 。 


表 只 有 单个 元 组 ( 因 J 

















这 个 调用 的 结果 是 一 个 元 组 列表 。 准确 来 说 ,因为 只 传递 了 一 个 文件 来 进行 分 类 ,所 以 该 列 











比 在 inverse_transform() 函数 中 使 用 [0] 索 引 )。 





向 用 户 展示 结果 前 ， 如 果 标 签 的 元 组 不 为 空 《 可 能 出 现 一 个 自 定 义 消息 )， 就 将 其 连接 为 一 


个 字符 串 。 


现在 可 以 查看 分 类 天 的 实际 运行 情况 。 


$ Python stack classification user_input.py \ 
--model questions-svm-classifier.pickle 

Type your question, or type "exit" to quit. 

> What's up with Gandalf and Frodo lately? They haven't been in the Shire 





for a while... 


Question: What's up wit 
Shire for a while... 


Predicted labels: 


Question: What's the ti 


Predicted labels: 


> How old is Tom Cruise? 





> How old is Brad Pitt? 


Predicted labels: 











plot-explanation, the-lord-of-the-rings 
Type your question, or type "exit" to quit. 
> What's the title of the latest Star Wars movie? 
tle of the latest Star Wars movie? 
identify-this-movie, star-wars, title 
Type your question, or type "exit" to quit. 
Question: How old is Tom Cruise? 
No label available for this question 
Type your question, or type "exit" to quit 
Question: How old is Brad Pitt? 
character, plot-explanation 
Type your question, or type "exit" to quit 





> exit 
Goodbye. 

















h Gandalf and Frodo lately? They haven't been in the 


调用 这 个 脚本 后 ， 提 示 让 我 们 输入 自己 的 问题 。 高 亮 的 代码 显示 了 用 户 输入 和 系统 回应 。 
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非常 有 趣 的 是 ， 该 分 类 顺 可 以 选取 《 魔 戒 》 中 的 一 些 名 字 ( Frodo、Gandalf 和 Shire )， 并 在 
没有 提 及 标题 的 情况 下 准确 为 问题 打上 标签 。 出 于 某 些 原因 ,该 问题 也 被 理解 为 对 画图 解释 的 请 
求 。 更 准确 地 说 ， 问 题 的 某 些 特征 导致 分 类 器 将 该 文档 标记 为 属于 画图 解释 类 。 


第 二 个 输入 包含 《星球 大 战 》 短 语 ， 因 此 识别 该 标签 非常 简单 直接 。 该 问题 也 问 了 标题 ， 因 
此 有 两 个 额外 的 类 名 称 title 和 igdentify-this-movie, 它们 都 与 该 问题 相关 。 从 目前 来 看 ， 
分 类 需 还 比较 准确 。 


对 于 最 后 两 个 问题 ， 我 们 可 以 看 到 ， 分 类 央 并 不 总 是 很 完美 。 当 问 到 Tom Cruise， 分 类 需 并 
没有 对 这 个 问题 给 定 任 何 标签 。 这 可 能 是 由 于 训练 数据 中 缺少 有 趣 的 特征 ， 即 tom 和 cruise 这 两 
个 单词 。Brad Pitt 的 结果 稍 好 一 点 ， 这 个 问题 与 character (一 点 点 扩展 ) 和 plot-explanation 
(明显 错误 ) 两 个 标签 相关 。 

最 后 用 户 输入 exit， 应 用 退出 。 

以 上 实验 表明 ， 分 类 器 的 准确 率 还 远 不 够 完美 。 在 实际 应 用 中 ， 我 们 测试 了 分 类 器 的 能 
虽然 可 以 通过 模糊 输入 迷惑 分 类 器 或 输入 分 类 器 未 训练 过 的 单词 , 但 本 节 的 核心 思想 是 我 们 并 不 
局 限于 学 术 实 验 来 测试 模型 。 将 机 器 学 习 模 型 整合 到 合适 的 用 户 应 用 是 一 个 非常 直接 的 任务 ,， 特 
别 是 用 Python 优雅 简单 的 界面 。 

实时 的 分 类 应 用 数不胜数 : 

口 情感 分 析 可 以 自动 识别 用 户 在 评论 中 的 观点 并 在 线 显 示 
口 垃圾 邮件 过 滤 能 够 拦截 或 者 过 滤 潜 在 的 垃圾 信息 
口 不 敬 词 检测 可 以 识别 在 论坛 上 发 布 不 雅 消息 的 用 户 ， 并 自动 拦截 该 消息 

如 果 感 兴趣 ,你 可 以 重用 第 5 章 中 介绍 的 Flask 并 扩展 这 些 内 容 ， 以 创建 一 个 简单 的 Web 应 

用 来 导入 一 个 机 需 学 习 模 型 ， 并 用 它 实时 对 用 户 问 题 进行 分 类 。 



































































































































6.5 小结 


本 章 介 绍 了 Web 上 非常 流行 的 问答 应 用 。Stack Exchange 以 及 Stack Overflow 在 程序 员 圈 的 
流行 是 由 社区 中 的 高 质量 内 容 驱 动 的 。 本 章 介 绍 了 如 何 与 Stack Exchange API 交 互 ， 以 及 如 何 用 
Stack Exchange 数据 存档 获得 Stack Exchange 的 全 部 数据 集 。 


本 章 的 第 二 部 分 介绍 了 分 类 任务 和 解决 问题 的 相关 监督 机 器 学 习 方 法 。Stack Exchange 上 的 
标签 数据 提供 了 创建 预测 模型 的 可 能 性 。 本 章 的 用 例 是 预测 问题 的 标签 , 该 技术 可 以 用 于 很 多 应 
用 。 本 章 的 最 后 一 部 分 进一步 扩展 ， 展 示 了 如 何 将 机 器 学 习 模型 轻松 整合 到 实时 的 用 户 应 用 中 。 


下 一 章 将 关注 博客 ， 介 绍 自 然 语言 处 理 技术 的 应 用 。 
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本 章 重 点 关注 自然 语言 处 理 (NLP )， 它 是 研究 如 何 处 理 自然 语言 的 领域 。 在 深入 了 解 自然 
语言 处 理 的 细节 之 前 ， 我 们 先 介绍 一 些 从 Web 上 下 载 文本 数据 的 方法 。 

本 章 将 介绍 以 下 主题 : 
口 如 何 与 WordPress.com 和 Blogger API 交 互 
口 网 站 订阅 格式 (RSS 和 Atom ) 及 其 使 用 方法 
口 如 何以 JSON 格式 存储 来 自 博客 的 数据 
口 如 何 与 维基 百科 API 交互 以 搜索 关于 实体 的 信息 
口 自然 语言 处 理 的 核心 概念 ， 特 别 是 如 何 进 行文 本 预 处 理 
口 如 何 处 理 文 本 数据 以 识别 文本 中 提 到 的 实体 


7.1 博客 和 自然 语言 处 理 


如 今 ， 博 客 是 Web 的 重要 组 成 部 分 ， 而 且 是 广 受 欢迎 的 社会 媒体 平台 。 企 业 、 专 业 人 士 和 
有 各 类 爱好 的 人 用 博客 接近 受众 , 以 促销 产品 和 服务 或 讨论 有 趣 的 话题 。 得 益 于 丰富 的 网 络 发 布 
工具 和 服务 ， 非 技术 用 户 可 以 轻松 地 在 几 分 钟 内 发 布 内 容 ， 建 立 个 人 网 站 。 


从 数据 挖掘 者 的 视角 来 看 ,博客 是 实现 文本 挖掘 的 完美 平台 。 本 章 将 重点 介绍 两 个 话题 : 如 
何 从 博客 中 获取 文本 数据 ， 以 及 如 何 对 这 些 数据 应 用 自然 语言 处 理 技术 。 


虽然 自然 语言 处 理 是 一 个 复杂 的 领域 , 需要 不 止 一 本 书 的 内 容 来 详细 介绍 , 但 我 们 将 从 实用 
主义 的 角度 介绍 一 些 基 本 理论 和 实际 案例 。 


7.2 ”从 博客 和 网 站 获取 数据 
目前 ， 丰富 的 网 站 中 有 很 多 有 趣 的 文章 ,查找 待 挖掘 的 文本 数据 应 该 不 是 一 个 大 问题 。 每 次 
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手动 保存 一 篇 文章 显然 不 能 很 好 地 扩大 数据 的 规模 ,因此 , 本 节 将 介绍 一 些 方法 对 从 网 站 获取 数 
据 的 过 程 进行 自动 化 。 


首先 ， 我 们 将 介绍 两 个 流行 的 博客 服务 WordPress.com 和 Blogger， 它 们 都 提供 了 API 
与 其 平台 交互 。 其 次 , 我 们 将 介绍 RSS 和 Atom 网 站 标准 ， 这 两 个 标准 被 很 多 博客 和 新 闻 发 布 者 
用 来 传播 易于 被 计算 机 读 取 的 内 容 。 最 后 ,我 们 将 简要 介绍 更 可 行 的 选项 。 例如, 与 维基 百科 连 
接 或 者 在 没有 其 他 选项 时 使 用 网 络 息 虫 。 





7.2.1 使 用 WordPress.com API 


WordPress.com 是 由 开源 的 WordPress 软件 驱动 的 博客 和 网 站 主机 提供 商 。 该 服务 为 注册 用 
户 提供 免费 的 博客 、 付 费 升 级 和 其 他 付费 服务 。 如 果 用 户 只 需要 阅读 和 评论 博文 内 容 , 那么 无 须 
注册 ， 除 非 博 主 特别 指定 ( 博 主 可 以 将 博文 标记 为 仅 自己 可 见 )。 





WordPress.com 和 WordPress.org 

WordPress 的 新 用 户 经 常 混淆 这 两 者 。 开 源 的 WordPress 软件 由 WordPress.org 开 

发 和 分 发 ， 你 可 以 下 载 该 软件 的 副本 并 安装 在 自己 的 服务 器 上 。 另 一 方面 ， 

WordPress.com 是 一 个 主机 提供 商 ， 为 不 想 安 装 软件 的 用 户 提供 定制 化 的 解决 方 
6 案 ， 以 处 理 各 种 服务 器 配置 。WordPress.com 上 博客 的 域名 通常 是 blog-name. 

wordpress.com 形式 ， 除 非 博 主 使 用 付费 的 域名 。 

本 节 讨 论 的 API 由 WordPress.com 提供 , 因此 我 们 可 以 获取 的 数据 是 由 该 提供 商 

的 主机 获取 的 。 


Python 还 没有 对 WordPress.com API 较 好 的 客户 端 支持 。 这 为 我 们 提供 了 直接 与 API 交互 的 
机 会 ， 即 可 以 编写 自己 的 客户 端 。 


好 在 完成 这 个 任务 所 需 的 努力 并 不 过 重 ，Python 的 requests 库 为 我 们 处 理 HTTP 提供 了 非 
常 简便 的 接口 。 我 们 将 用 它 建 立 对 WordPress.com API 的 一 系列 调用 ， 调 用 的 目的 是 从 特定 域名 
下 载 一 些 博文 。 


第 一 步 是 在 我 们 的 虚拟 环境 中 安装 这 个 库 。 















































$ pip install requests 




















第 二 步 是 查看 文档 ， 特 别 是 /sites/$site/posts 端点 (https://developer.wordpress.com/ 
docs/api/1.1/get/sites/%24site/posts/ )。 








以 下 脚本 定义 了 get_posts () 函数 ， 该 函数 用 于 查询 WordPress.com API 并 处 理 翻 页 。 








# Chap07/blogs_wp_get_posts.py 
import json 
from argparse import ArgumentParser 
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import requests 


API_BASE URL = 'https://public-api.wordpress.com/rest/vi.1' 


def get_parser (): 
parser = ArgumentParser() 
parser.add_argument ('--domain') 


parser.add_argument ('--posts', type=int, default=20) 


parser.add argument ('--output') 
return parser 


def get_posts (domain, n_posts=20): 


url = "{}/sites/{}/posts".format (API_BASE URL, domain) 


next_page = None 
posts = [] 
while len(posts) <= n_posts: 
payload = {'page_ handle': next_page} 


response = requests.get (url, params=payload) 


response_data = response.json!() 
for post in response data['posts']: 
posts.appengd (post) 


next_page = response datal['meta'] .get ('next_page', None) 


if not next_page: 
break 
return posts[:n_posts] 


下 name = "main 
parser = get_parser() 
args = parser.parse_args() 





posts = get_posts(args.domain, args.posts) 
with open(args.output, 'w') as f: 


for i, post in enumerate(posts): 
f.write(json.dumps (post)+"\n") 


以 上 脚本 用 ArgumentParser 接收 命令 行 参 数 。 


它 还 有 两 个 必 备 参数 : --domain 和 


--output， 前 者 用 于 设置 我 们 检索 数据 的 域名 ， 后 者 用 于 设置 JSON Lines 文件 的 名 称 。 可 选 参 





数 是 --posts ， 表 示 我 们 从 给 定 域名 检索 的 博文 数量 ， 








其 默认 值 为 20。 


域名 是 指定 博客 的 完整 URL， 如 your-blog-name.wordpress.com。 


例如 ， 可 以 用 以 下 命令 运行 脚本 。 


$ Python blogs_wp_get_posts.py \ 
--domain marcobonzanini.com \ 
--output posts.marcobonzanini.com.jsonl \ 
--posts 100 

















几 秒 后 ， 脚 本 会 生成 JSON Lines 文件 ， 其 中 每 行 都 是 以 JSON 格式 表示 的 一 篇 博文 。 


在 描述 输出 格式 前 ， 我 们 来 详细 分 析 一 下 get_pos 




















ts () 函数 ， 该 函数 是 我 们 脚本 的 核心 。 
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该 函数 有 两 个 参数 : gomain 和 nmn_posts, 前 者 是 博客 的 域名 , 后 者 是 我 们 希望 检索 的 博文 数量 ， 
默认 值 为 20。 


首先 , 该 函数 为 相关 API 端点 定义 了 URL,， 并 初始 化 了 next_page 变量 ,用 于 迭代 多 个 页 
面 的 结果 。 默 认 人 情况 下 ，API 在 每 个 页 面 返回 20 个 结果 ( 即 20 篇 博文 )。 如 果 博 文 的 数量 大 于 
这 个 值 ， 就 需要 迭代 多 个 页 面 。 


该 函数 的 核心 是 while 循环 ,用 于 每 次 检索 一 个 页 面 的 结果 。 我 们 用 GET 方法 调用 API 端 
点 ， 该 端点 接收 文档 中 为 其 定义 的 几 个 参数 。page_handle 参数 用 于 指定 我 们 感 兴趣 的 页 面 结 
果 。 第 一 次 迭代 时 ， 该 变量 的 值 是 None， 因 此 检索 从 开头 开始 。 用 response.json() 方 法 返 
回 的 JSON 格式 的 响应 数据 包含 博文 列表 response_data['posts'] ， 以 及 一 些 存储 在 
response_data['meta'] 中 关于 请 求 的 元 数据 。 如 果 有 下 个 页 面 的 结果 , 那么 元 数据 的 字典 将 
包含 一 个 next_page 键 。 如 果 该 键 没有 出 现 ， 则 将 其 设置 为 None。 


当 没 有 next_page《〈 即 已 经 下 载 了 所 有 可 用 的 博文 ) 或 者 已 经 达到 足够 的 博文 数量 ( 以 
n_posts 指定 ) 时 ， 循 环 就 会 停止 。 最 后 ， 我 们 将 返回 博文 的 列表 切片 。 当 需要 的 博文 数量 
n_posts 不 是 页 面 大 小 的 整数 倍 时 ,切片 是 很 有 必要 的 。 例如， 如 果 我 们 指定 需要 的 博文 数量 为 
30， 那 么 这 段 代码 将 下 载 两 页 博文 ， 其 中 每 个 页 面 有 20 篇 博文 ， 因 此 切片 需要 切除 最 后 10 项 。 

每 个 博文 对 象 由 表 7-1 中 的 属性 来 定义 。 


表 7-1 博文 对 象 的 属性 























































































































属 性 描 述 
ID 博客 中 博文 的 人 D 
URL 博文 的 完整 URL 
attachment_count 附件 的 数量 ( 如 媒体 文件 等 ) 
attachments 附件 对 象 列 表 
author 作者 的 个 人 资料 对 象 ， 其 中 包括 全 名 、 登 录 名 、 头 像 、 头 像 资料 URL 等 
categories 博文 所 属 的 分 类 列表 
content 博文 的 完整 内 容 ， 包 括 HTML 标记 
gate ISO 8601 格式 的 博文 发 布 时 间 
discussion 有 关 评 论 、ping 等 的 信息 
excerpt 博文 的 简短 摘要 ， 通 常 是 前 儿 句 话 
feature_image 特征 图 像 的 URL， 如 果 特 征 图 像 出 现 的 话 
global_ID 博文 的 全 局 ID 
guid 博客 域名 和 博文 ID 合并 为 一 个 合法 的 URL 
i_like 表示 登录 用 户 是 否 喜 欢 该 博文 
is_following 表示 登录 用 户 是 否 关注 了 该 博客 
is_reblogged 表示 登录 用 户 是 否 转载 了 该 博文 





like_count 喜欢 该 博文 的 用 户 数量 
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( 续 ) 
属 性 描 述 
meta 来 自 API 的 元 数据 ， 如 用 于 自动 API 发 现 的 超 媒体 链接 等 
modified ISO 8601 格式 的 博文 最 后 修改 时 间 
short_url 用 于 社会 媒体 和 移动 端 共享 的 短 URL ( http://wp.me ) 
site_ID 博客 的 ID 
slug 博文 的 URL 识别 
status 博文 的 当前 状态 ， 如 已 发 布 、 草 稿 、 进 行 中 ， 等 等 
sticky 表示 博文 是 否 固定 〈 不 考虑 发 布 时 间 始 终 置 顶 ) 
tags 与 博文 相关 的 标签 列表 
title 博文 的 标题 


正如 我 们 看 到 的 ， 博 文 的 结构 比 其 内 容 复 杂 


包括 标题 和 摘要 。 








7.2.2 ”使 用 Blogger API 


Blogger 是 男 一 个 流行 的 博客 发 布 服 务 ， 于 2003 年 被 Google 收购 。Blogger 中 的 博客 通常 在 
blogspot.com 的 子 域名 下 ,如 your-blog-name.blogspot.com。 有 几 个 国家 使 用 了 特定 国家 的 域名 ( 如 





英国 的 blogspot.co.uk )， 也 就 是 说 ， 














Developers Console 接 入 Blogger ,这 与 第 


API 的 项 目 。 可 以 重 月 





建 一 个 项 目 。 具 体 步 又 参见 第 5 章 中 的 介 


Blogger API， 


在 处 理 Google Plus API 


用 来 接 入 Blogger API 
器 键 ， 





对 于 客户 端 库 , 可 





可 以 将 其 存储 在 环境 变 


$ export GOOGLE API KEY="your-api-key-here" 


否则 无 法 接 入 权限 。 
时 ， 我 们 还 讨论 了 接 入 键 的 创建 ， 








的 键 。 如 果 依 照 第 
量 中 。 














f 适用 于 Blogger API。 


杂 得 多 ， 


























特定 国家 的 用 户 会 以 透明 的 方式 被 重 定向 到 指定 域名 。 


Blogger 是 Google 的 产品 ， 其 账户 是 集中 式 的 。 也 就 是 说 ， 只 要 注册 过 Google 账户 ， 月 
就 可 以 自动 接 人 Blogger。 这 同 档 





但 对 本 章 来 说 ， 我 们 主要 关注 文本 内 容 ， 


有 户 





作为 开发 者 ， 我 们 可 以 通过 Google 


5 章 中 的 做 法 相同 ,我 们 创建 了 一 个 可 以 接 入 任何 Google 
有 同样 的 项 目 并 在 0 Console 中 启用 Blogger API， 也 可 以 重新 创 
文 两 种 方式 中 ， 最 重要 的 步骤 就 是 为 项 目 启用 


2 









































特别 是 服务 器 键 ， 这 也 是 我 们 将 
第 5 章 中 的 步骤 来 做 ,我 们 应 该 已 经 有 了 一 个 可 用 的 服务 


以 使 用 与 第 5 章 中 相同 的 客户 端 库 ,因为 它 是 所 有 Google API 的 通用 接口 。 








如 果 还 未 安装 它 ， 








$ pip install google-api-python-client 





配置 好 环境 后 ， 
博文 。 























可 以 使 用 pip 将 其 添加 到 我 们 的 虚拟 环境 中 。 





就 可 以 开始 编写 与 Blogger API 交互 的 脚本 ,以便 从 给 定 的 博客 中 下 载 一 些 
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# Chap07/blogs_blogger_dget_posts .py 
import os 

import json 

from argparse import ArgumentParser 
from apiclient.discovery import build 


def get_parser(): 
parser = ArgumentpParser () 


parser.add _ argument ('--url') 
parser.add_argument ('--posts', type=int, default=20) 
parser.add_ argument ('--output') 


return parser 
class BloggerClient (object): 


def _ init__(self, api_ key): 
self.service = build('blogger', 
ty 
developerKey=api_key) 


def get_posts(self, blog url, n posts) : 
blog_service = self.service.blogs() 
blog = blog_service.getByUrl (url=blog_url) .execute() 
posts = self.service.posts!() 
request = posts.list (blogId=blog['id']) 
all_posts = [] 
while request and lenl(all posts) <= n_posts: 
posts_doc = request .execute() 
人 
for post in posts_doc['items']: 
all_posts.append (post) 
except KeyError: 
break 
request = posts.list next (request, posts_doc) 
return all_posts[:n_ posts] 


if name., == '_ main _': 
api_key = os.environ.get ('GOOGLE API_KEY') 
parser = get_parser() 
args = parser.parse_args() 








blogger = BloggerClient (api_key) 
posts = blogger.get_posts(args.url, args.posts) 


with open(args.output, 'w') as f: 
for post in posts: 
f.write(json.dumps (post)+"\n") 


编排 与 所 有 Google API 交互 的 Google API 客户 端 有 一 个 服务 构建 器 的 概念 , 这 是 一 种 用 于 创建 
服务 对 象 的 工厂 方法 , 用 于 查询 API。 为 了 提供 易于 使 用 的 接口 ,我 们 将 创建 一 个 Bloggerclient 
类 来 保留 API 键 、 创 建 服务 对 象 并 提供 一 个 get_posts () 函数 ,这 与 我 们 为 WordPress.com API 
所 定义 的 类 似 。 
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可 以 从 命令 行 传 人 三 个 参数 来 调用 使 用 了 ArgumentParser 的 脚本 ， 如 下 所 示 。 


$ Python blogs blogger get posts.py \ 
--url http://goo0ogleresearch.blogspot.co.uk \ 
--posts 50 \ 
--output posts.googleresearch.jsonl 





与 WordPress.com 类 似 , 我 们 用 --posts 和 --output 参数 来 分 别 定义 期 望 的 博文 数量 和 输 
出 文件 的 名 称 。 与 前 面 的 示例 不 同 ，--url 参数 要 求 给 定 的 字符 串 是 博客 的 完整 URL， 而 且 不 
能 只 是 域名 ( 即 应 该 包含 http:// )。 通 过 使 用 前 面 的 命令 ， 我 们 将 获取 Google Research 博客 中 最 
新 的 50 篇 博文 。 


进一步 查看 Bloggerclient 类 ,该 构造 器 只 接收 一 个 参数 ， 即 开发 者 在 Google Developers 
Console 注册 应 用 时 获得 的 API 键 。 它 使 用 buila() 工 厂 国 数 创 建 service 对 象 。 需 要 注意 的 
是 ,我们 使 用 的 是 第 3 版 的 APL v3 ， 因 此 需要 查看 对 应 版 本 的 文档 。 


get_posts () 方 法 完成 繁重 的 工作 。 该 晒 数 的 布局 与 WordPress.com API 中 定义 的 get_posts () 
函数 非常 相似 ， 都 带 有 博客 URL 和 需要 的 博文 数量 这 两 个 参数 。 


与 WordPress.com API 不 同 的 是 ，Blogger API 首先 需要 一 个 博客 对 象 ， 因 此 我 们 需要 将 URL 
转换 成 数值 ID。 这 是 通过 该 对 象 的 getByUrl () 函数 执行 的 , 该 函数 是 与 self.service.blogs () 
同时 创建 的 。 


另 一 个 有 趣 的 不 同 之 处 是 , 与 懒惰 评估 函数 类 似 , 对 大 多 数 服务 函数 的 调用 并 不 会 直接 触发 
对 API 的 调用 ， 因 此 我 们 需要 特别 指定 一 个 execute () 函数 来 执行 API 请 求 并 获得 响应 。 

request .execute() 调 用 创建 了 一 个 posts_aqoc 对 象 ， 该 对 象 可 能 包含 、 也 可 能 不 包含 
item 键 (博文 列表 )。 将 其 包装 到 try/except 模块 中 可 以 确保 ， 如 果 特 定 的 调用 未 返回 任何 
博文 ， 该 迭代 就 会 中 断 停止 ， 但 不 会 抛 出 任何 异常 。 

一 旦 达到 需要 的 博文 数量 或 者 没有 其 他 页 面 可 用 ， 就 用 切片 技术 返回 博文 列表 。 

Blogger API 返回 的 JSON 文档 比 WordPress.com 的 更 简单 ,但 所 有 的 键 属性 都 会 出 现 。 表 7-2 
总 结 了 每 篇 博文 的 主要 属性 。 
















































































表 7-2 博文 的 属性 





























属 性 描 述 
author 表示 博文 作者 的 对 象 ， 其 中 包括 显示 名 称 、 用 户 ID 、 资 料 图 像 和 URL 
blog 表示 博客 本 身 的 对 象 ( 如 博客 ID ) 
content 博文 的 完整 内 容 ， 包 括 HTML 格式 
id 博文 的 ID 














labels 与 博文 相关 的 标签 列表 
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( 续 ) 
属 性 描述 
published ISO 8601 格式 的 博文 发 布 日 期 
replies 表示 博文 评论 /回复 的 对 象 
selfLink 博文 的 API 链 接 
title 博文 的 标题 
updated ISO 8601 格式 的 博文 最 后 更 新 日 期 
url 博文 的 URL 








除 博文 的 内 容 外 ， 以 上 还 可 以 看 到 更 多 有 趣 的 信息 ， 但 本 章 重点 关注 文本 数据 。 





7.2.3 解析 RSS 和 Atom 订阅 


很 多 博客 ( 也 可 以 说 是 很 多 网 站 ) 都 以 标准 格式 向 外 提供 其 内 容 , 但 这 种 格式 并 不 是 提供 给 
终端 用 户 在 屏幕 上 阅读 的 ， 而 是 便于 第 三 方 出 版 商 解 析 。 这 就 是 需要 RSS (rich site summary ， 
简易 信息 聚合 ) 和 Atom 的 原因 ， 我 们 可 以 用 这 两 种 基于 XML 的 格式 从 实现 该 特性 的 网 站 上 快 
速 获 取 各 种 信息 。 


RSS 和 Atom 属于 网 站 订阅 格式 家 族 ， 常 用 于 为 用 户 提供 网 站 内 容 的 更 新 。 订 阅 提供 商 汇 聚 
订阅 源 ,意味 着 用 户 可 以 通过 一 个 应 用 订阅 特定 的 订阅 源 , 一 旦 有 新 的 内 容 发 布 ,， 就 可 以 获得 更 
新 。 包 括 邮件 阅读 器 在 内 的 一 些 应 用 都 提供 了 将 网 站 订阅 整合 到 工作 流 的 特征 。 






























































在 挖掘 博客 和 文章 的 场景 中 , 订阅 非常 有 趣 ， 因 为 订阅 为 给 定 网 站 提供 了 一 个 进入 项 ， 即 以 
机 器 可 读 的 格式 提供 网 站 内 容 。 


例如 ， 英 国 广播 公司 (BBC ) 提供 了 广泛 的 新 闻 订 阅 源 ， 分 为 多 个 主题 : 世界 新 闻 、 技 术 、 
体育 等 。 例 如 ， 和 置顶 新 闻 的 订阅 源 为 (浏览 器 可 读 ) http:/feeds.bbci.co.uknews/rss.xml。 


Python 对 读 取 网 站 订阅 源 的 支持 非常 直接 。 我 们 需要 做 的 是 安装 订阅 源 解析 库 , 该 库 会 下 载 
订阅 源 并 将 XML 解析 为 Python 对 象 。 


首先 ， 在 虚拟 环境 中 安装 这 个 库 。 
































$ pip install feedparser 


以 下 脚本 用 于 下 载 给 定 URL 的 订阅 源 ， 并 用 常规 的 JSON Lines 格式 保存 新 闻 项 。 








# Chap07/blogs_rss_get_posts.py 
import json 

from argparse import ArgumentParser 
import feedparser 


def get_ parser(): 
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parser = ArgumentParser() 
parser.add argument ('--rss-url') 
parser.add_argument ('--json') 
return parser 


Tf name Ee a 
parser = get_parser() 
args = parser.parse_args() 





feed = feedparser.parse(args.rss_url) 
if feed.entries: 
with open(args.json, 'w') as f: 
for item in feed.entries: 
f.write(json.dumps (item)+"\n") 


该 脚本 接收 通过 ArgumentParser 定义 的 两 个 参数 : --rss-url 和 --json， 前 者 用 于 传 
递 订阅 源 的 URL， 后 者 用 于 指定 以 JSON Lines 格式 保存 的 订阅 源 的 文件 名 称 。 


例如 ， 为 了 从 BBC 置顶 新 闻 下 载 RSS 订阅 源 ， 可 以 使 用 以 下 命令 。 








$ Python blogs rss get posts.py \ 
--rss-url http://feeds.bbci.co.uk/news/rss.xml \ 
--json rss.bbc.jsonl 


这 个 脚本 非常 易 履 ,最 复杂 的 工作 由 feedparser 库 的 parse () 函数 完成 。 该 函数 识别 该 格式 
并 将 XML 解析 为 一 个 对 象 , 该 对 象 包含 entries 属性 (新 闻 项 的 一 个 列表 ), 通过 迭代 该 列表 ， 
可 以 用 几 行 代码 将 每 个 项 存 人 我 们 希望 的 JSON Lines 格式 。 

这 些 新 闻 项 的 有 趣 属性 如 下 所 示 。 

口 id: 新 闻 项 的 URL 
口 bublishedq: 发 布 时 间 


口 title: 新 闻 标 题 
口 summary: 新 闻 的 简短 摘要 














7.2.4 ”从 维基 百科 获取 数据 


维基 百科 可 能 不 需要 过 多 介绍 ， 它 是 最 流行 的 网 站 和 参考 工具 之 一 。2015 年 年 底 ， 维 基 百 
科 的 英文 文章 数量 达到 了 约 500 万 篇 ， 所 有 语言 的 文章 共有 3800 多 万 篇 。 


维基 百科 以 API 的 方式 提供 内 容 。 它 也 定期 提供 完整 的 数据 存档 。 


一 些 项 目 提 供 了 维基 百科 API 的 Python 包装 器 。 一 个 特别 实用 的 库 叫 作 wikipedia。 可 以 用 
常规 方式 将 其 安装 到 虚拟 环境 中 。 


$ pip install wikipedia 
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这 个 库 的 接口 非常 直接 , 正如 其 文档 所 说 , 我 们 从 而 可 以 关注 如 何 使 用 来 自 维基 百科 的 数据 ， 
而 不 是 如 何 获取 这 些 数据 。 


除了 获取 完整 的 页 面 ,维基 百科 API 还 提供 了 搜索 和 自动 摘要 等 特性 。 我 们 来 查看 以 下 示例 。 








pd 








>>> import wikipedia 

# 获得 维基 百科 页 面 

>>> packt = wikipedia.page('Packt') 
>>> packt .七 It 上 le 

"Packt' 

>>> packt .url 
'https://en.wikipedia.org/wiki/Packt' 
# 获得 页 面 的 摘要 

>>> wikipedia.summary('Packt') 
"Packt, pronounced Packed, is a print on demand publishing company based in 
Birmingham and Mumbai." # 更 长 的 描述 


在 以 上 示例 中 ， 我 们 直接 获得 了 Packt 出 版 社 的 页 面 ， 并 且 知 道 Packt 这 个 名 称 是 唯一 的 。 
当 不 确定 我 们 感 兴趣 的 实体 的 精确 页 面 时 ， 维 基 百 科 API 的 搜索 和 模糊 特征 就 非常 有 用 了 。 


例如 ，London 至 少 与 两 个 城市 〈 一 个 在 英国 ， 另 一 个 在 加 拿 大 ) 和 几 个 实体 或 事件 〈 如 伦 
敦 塔 、 伦 敦 大 火 等 ) 有 关 。 

>>> wikipedia.search('London') 

['London', 'List of bus routes in London', 'Tower of London', 'London, 


Ontario', 'SE postcode area', 'List of public art in London', 'Bateaux 
London', 'London Assembly', 'Great Fire of London', 'N postcode area'] 


如 果 存 在 拼写 错误 ， 那 么 结果 会 出 人 意料 。 


>>> wikipedia.search('Londn') 
['Ralph Venning', 'Gladys Reynell', 'GestiFute', 'Delphi in the Ottoman 
period'] 


可 以 通过 询问 维基 百科 的 建议 来 解决 上 述 问题 。 


>>> wikipedia.suggest('Londn') 
'london' 


这 里 以 伦敦 为 例 , 我 们 发 现 该 实体 的 摘要 特别 长 。 假如 需要 更 短 的 摘要 ,可 以 通过 API 指 定 
句子 的 数量 ， 如 图 7-1 所 示 。 












































>>> wikipedia. summary(" London', sentences=2) 

"London /1aAnden/ is the capital and most populous city of England 
and the United Kingdom. Standing on the River Thames in the south 
east of Great Britain，London has been a major settlement for two 
millennia. 











图 7-1 简短 摘要 
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最 后 ,我 们 思考 一 下 消除 政 义 的 问题 。 当 访问 指定 名 称 的 维基 百科 页 面 时 ， 如 果 匹 配 到 多 个 
实体 ， 而 没有 一 个 确定 的 候选 项 时 ， 那 么 就 会 出 现 一 个 消除 歧义 匹配 问题 的 页 面 。 


从 API 的 角度 来 看 ， 该 结果 是 一 个 异常 ， 如 下 所 示 。 














>>> wikipedia.summary('Mercury') 
Traceback (most recent call last): 
# 很 长 的 错误 消息 
wikipedia.exceptions.DisambiguationError: "Mercury" may refer to: 
Mercury (element) 
Mercury (planet) 
Mercury (mythology) 
提 很 长 的 "Mercury" 建 议 列表 


为 了 避免 该 问题 的 出 现 ， 可 以 将 请 求 包装 在 一 个 tr*y/except 模块 中 。 


>>> try: 
wikipedia.summary('Mercury') 
. except wikipedia.exceptions.DisambiguationError as e: 
print ("Many options available: {}".format(e.options)) 


Many options available: ['Mercury (element)', 'Mercury (planet)', 'Mercury 
(mythology)'，...] # 长 列表 








接 入 维基 百科 可 以 下 载 完整 文章 , 但 这 并 不 是 其 唯一 的 用 处 。 我 们 将 介绍 如 何 从 文本 中 抽取 
名 称 和 命名 实体 。 此 外 , 还 可 以 用 维基 百科 来 增强 命名 实体 的 抽取 结果 , 增强 的 方式 就 是 用 简短 
的 摘要 解释 识别 出 的 实体 。 























7.2.5 ”关于 网 络 爬 取 的 一 点 建议 

网 络 息 取 是 自动 从 网 站 抽取 信息 并 下 载 的 过 程 。 网 络 息 取 软 件 基本 上 是 模拟 人 在 网 站 上 浏览 
言 息 〈 并 保存 )， 目 的 是 获取 大 量 数据 或 执行 需要 自动 交互 的 特定 任务 。 

当 Web 服务 不 提供 API 或 订阅 源 下 载 时 ， 构 建 网 络 候 虫 有 时 就 是 解决 方案 。 
虽然 网 络 息 虫 是 正当 合理 的 应 用 , 但 需要 注意 的 是 ,自动 假 取 可 能 会 违背 目标 网 站 所 规定 的 
使 用 条 款 。 更 重要 的 是 ， 还 需要 考虑 一 些 道德 和 法 律 的 问题 ( 可 能 随 国 家 而 不 同 )， 举 例如 下 。 
口 是 否 有 权限 访问 并 下 载 数 据 ? 
口 是 否 过 量 下 载 了 网 站 数据 ? 

通常 可 以 查看 网 站 的 使 用 条 款 来 回答 第 一 个 问题 ,第 二 个 问题 比较 难以 回答 。 从 原则 上 来 说 ， 
如 果 与 网 站 进行 大 量 交互 ( 例如 ， 在 短 时 间 内 获取 大 量 页 面 )， 我们 肯定 超过 了 普通 用 户 的 合理 
交互 , 可 能 会 导致 网 站 的 服务 性 能 下 降 。 如 果 我 们 连接 的 网 站 处 理 不 了 这 样 大 量 的 请 求 , 甚至 会 
引发 拒绝 服务 攻击 。 
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在 有 大 量 可 用 数据 以 及 很 多 服务 让 这 些 数据 很 容易 获取 的 情况 下 , 构建 网 络 翁 虫 应 该 是 API 
不 可 用 时 的 最 后 选择 。 


这 个 话题 比较 复杂 。 虽 然 有 为 息 虫 量 身 定做 的 工具 Scrapy， 但 还 是 可 以 用 requests 和 
Beautiful Soup 等 库 实现 定制 化 的 解决 方案 。 这 个 话题 超出 了 本 书 的 范围 ， 如 果 感 兴趣 ， 你 可 以 
找到 很 多 相关 出 版 物 ， 如 Richard Lawson 撰写 的 《用 Python 写 网 络 候 虫 》。 


























7.3 自然 语言 处 理 基础 


本 贡 介 绍 自然 语言 处 理 这 个 复杂 领域 的 基础 。 前 面 的 章节 介绍 了 处 理 文本 数据 的 一 些 基 础 
( 如 分 词 ) 这 里 我 们 将 尝试 进一步 理解 该 技术 。 由 于 复杂 性 以 及 其 他 方面 的 因素 ,我 们 将 从 实用 
主义 人手， 只 介绍 一 些 理 论 基 础 以 辅助 实际 示例 。 











7.3.1 文本 处 理 

任何 自然 语言 处 理 系统 的 必 备 部 分 都 是 预 处 理 流水 线 。 对 一 段 文 本 执行 有 趣 的 任务 前 , 我 们 
需要 先 将 其 转换 为 有 用 的 表示 。 

前 面 在 没有 深入 了 解 文本 预 处 理 的 情况 下 做 了 一 些 文本 数据 分 析 , 并 以 常用 工具 的 实用 方法 
实现 。 本 节 将 特别 介绍 一 些 常见 的 预 处 理 步 又 ， 并 讨论 它们 在 构建 自然 语言 处 理 系统 中 的 作用 。 

1. 句子 边界 检测 

给 定 一 段 文本 〔 即 一 个 字符 串 )， 将 其 分 割 为 句子 列表 的 任务 称 作 句 子 边 界 检测 (也 称 作 句 
子 末 尾 检 测 或 句子 分 词 )。 

句子 是 将 单词 有 意义 地 组 织 起 来 并 在 语法 上 表达 完整 想法 的 语言 单元 。 从 语言 学 (语言 的 科 
学 研究 ) 的 角度 来 看 , 彻底 讨论 定义 句子 的 所 有 相关 方面 可 能 需要 较 长 篇 幅 。 从 实用 性 和 构建 自 
然 语 言 处 理 系统 的 角度 来 看 ， 上 面 语言 单元 的 通用 概念 已 经 足够 了 。 

需要 注意 的 是 ， 虽 然 句 子 是 有 意义 的 独立 单元 ， 但 有 时 也 需要 作为 大 段 内 容 ( 如 一 个 段落 
或 章节 ) 的 一 部 分 。 这 是 因为 一 些 句子 中 的 单词 可 能 会 指向 其 他 句子 中 表达 的 概念 。 思 考 以 下 
示例 : 



























































Elizabeth I is the Queen of the United Kingdom. She was born in London in 1926 and her 
reign began in 1952. 


以 上 这 上 段 简单 的 文本 包含 两 个 句子 。 第 二 个 句子 使 用 了 代词 she 和 her。 如 果 单 独 来 看 这 个 
和 句子, 这 两 个 单词 并 不 能 表明 句子 的 主语 是 谁 。 有 了 上 下 文 , 读者 可 以 很 轻松 地 将 这 两 个 单词 和 
前 面 句 子 的 主语 Elizabeth I 联系 起 来 。 这 是 一 个 非常 难 的 自然 语言 处 理 问 题 ， 名 叫 指 代 消 解 
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( anaphora resolution )。 通 党 来 说 ， 与 其 他 句子 链接 的 句子 经 常 利用 局 部 上 下 文 ， 也 就 是 说 ， 链 接 
的 是 上 一 个 /下 一 个 句子 ， 而 不 是 文本 中 相隔 较 远 的 句子 。 识 别 更 广 上 下 文 ( 如 有 段落 或 章节 ) 的 
边界 在 有 些 应 用 中 非常 有 用 ， 但 句子 边界 识别 是 一 个 常用 的 起 点 。 




















从 实际 应 用 来 看 ， 分 割 句子 并 不 是 一 个 很 大 的 问题 ， 因 为 我 们 可 以 使 用 标点 符号 (如 句号 、 
感叹 号 等 ) 来 识别 句子 的 边界 。 这 种 过 于 简化 的 方法 会 导致 一 些 错误 ， 如 下 例 所 示 。 





>>> text = "Mr. Cameron is the Prime Minister of the UK. He serves since 
2010." 


>>> sentences = text.split('.') 
>>> sentences 


['Mr', ' Cameron is the Prime Minister of the UK', ' He serves since 2010', 
1 
] 

















正如 我 们 所 看 到 的 ， 将 每 个 点 作为 句号 会 将 Mr Cameron 分 割 为 两 个 部 分 ， 这 样 得 到 的 是 一 
个 没有 意义 的 句子 Mr ( 以 及 最 后 一 个 空 的 句子 )。 还 可 以 列举 很 多 其 他 示例 ， 主 要 是 一 些 缩 略语 
(如 Dr.、Ph.D、U.S.A. 等 )。 


























好 在 NLTK 提供 了 一 个 简单 的 解决 方案 ， 如 下 所 示 。 


>>> from nltk.tokenize import sent tokenize 

>>> sentences = sent_ tokenize(text) 

>>> sentences 

['Mr. Cameron is the Prime Minister of the UK.', 'He serves since 2010.'] 














这 里 的 句子 都 被 准确 识别 了 。 该 示例 非常 简单 ,但 在 有 些 情 况 下 ，NLTK 并 不 会 执行 正确 的 
句子 识别 。 通 常 来 说 ， 该 库 可 以 较 好 地 分 割 句子 ， 因 此 多 数 应 用 场景 下 无 须 过 多 担心 。 


2. 单词 分 词 


将 给 定 句子 ( 即 一 个 字符 串 ) 分 割 成 单词 列表 的 任务 称 作 单词 分 词 , 有 时 简称 为 分 词 。 此 时 ， 
单词 通常 称 作 词 项 。 











对 包括 英语 在 内 的 大 多 数 欧 洲 语言 来 说 ,分词 看 起 来 是 一 个 非常 直观 的 任务 ,因为 单个 单词 
由 空格 分 隔 。 这 种 过 于 简化 的 方式 也 有 缺点 。 





>>> s = "This sentence is short, nice and to the point." 

>>> wrong tokens = s.split() 

>>> Wrong tokens 

['This', 'sentence', 'is', 'short,', 'nice', 'and', 'to', 'the', 'point.'] 

这 里 的 short ,和 point. (注意 结尾 的 标点 符号 ) 明显 不 正确 : 分 词 失 败 的 原因 是 ,简单 
地 用 空格 分 隔 并 没有 考虑 到 标点 符号 。 构建 分 词 器 来 考虑 一 种 语言 的 所 有 细节 是 难以 实现 的 。 此 
外 ,对 于 德语 或 芬兰 语 等 一 些 欧洲 语言 来 说 ， 这 实现 起 来 更 加 困难 ， 因 为 这 些 语言 中 包含 大 量 的 
组 合 词 ， 如 两 个 及 更 多 单词 连接 起 来 组 成 一 个 更 长 的 单词 ， 且 含义 可 能 与 其 组 成 部 分 类 似 、 也 可 
能 大 不 相同 。 更 具 挑 战 的 是 一 些 亚 洲 语言 ， 如 中 文 在 书写 时 是 没有 空格 符号 作为 分 隔 的 。 一些 特 





























7.3 ”自然 语言 处 理 基础 179 








殊 的 库 可 以 处 理 特 定 的 语言 。 例 如 ，jieba 是 一 个 Python 库 ， 专 门 用 于 中 文 的 单词 分 割 。 





你 并 不 需要 担心 语言 处 理 的 这 些 方面 ， 因 为 我 们 现在 只 关注 英语 的 处 理 。 此 外 ，NLIK 包 已 
经 具备 了 标准 英语 的 多 种 处 理 方法 。 





>>> from nltk.tokenize import word tokenize 

>>> S = "This sentence is short, nice and to the point." 

>>> correct tokens = word tokenize(s) 

>>> correct_ tokens 

['This', 'sentence', 'is', 'short', ',', 'nice', 'and', 'to', 'the', 
'point', '.'] 


可 以 看 到 ， 标 点 符号 也 作为 词 项 输出 ， 可 用 于 后 面 的 处 理 。 








正如 我 们 在 本 示例 中 看 到 的 , 单个 单词 都 被 准确 识别 了 。 标点 符号 也 作为 词 项 输出 ,可 用 于 
后 面 的 人 处理。NLTK 的 word_tokenize () 函数 需要 安装 punkt 包 。 如 果 该 函数 抛 出 异常 ， 可 以 
参考 第 1 章 ， 其 中 提供 了 可 以 解决 该 问题 的 配置 方法 。 


3. 词性 标注 

















一 旦 有 了 单词 序列 ， 就 可 以 标注 每 个 单词 的 语法 类 别 。 该 过 程 叫 作词 性 标注 ( part-of-speech 
tagging )， 词 性 标注 在 很 多 文本 分 析 任 务 中 都 有 广泛 的 应 用 。 

常见 的 语法 类 别 包 括 名 词 、 动 词 和 副词 ， 每 一 种 都 是 一 个 不 同 的 标签 符号 。 不 同 的 标签 器 基 
于 不 同 的 标签 集合 , 这 也 就 意味 着 不 同 的 标签 器 有 不 同 的 可 选 标签 , 且 每 个 标签 器 的 输出 各 不 相 
同 。 默 认 情 况 下 ，NLIK 库 使 用 的 是 来 自 Penn Treebank Project 的 标签 集合 。 


我 们 可 以 从 在 线 帮助 获取 完整 的 可 用 标签 列表 及 其 含义 。 












































>>> nltk.help.upenn tagset() 
这 将 产生 一 个 长 输出 ， 其 中 包括 所 有 的 标签 及 其 描述 ， 以 及 一 些 示 例 。 最 第 用 的 标签 有 NN 


(常见 名 词 )、NNP ( 专 有 名 词 )、JJ( 形容词) 和 VvV* (一 些 以 V 开头 的 标签 ， 表示 动词 的 不 同 
时 态 )。 





为 了 将 单词 与 相关 的 标签 关联 起 来 , 可 以 使 用 nltk.pos_tag () 函数 。NLTK 提供 了 多 个 词 
性 标注 方法 的 实现 。 在 最 新 版 本 的 工具 中 ， 默 认 的 词性 标签 器 是 平均 感知 器 ( averaged perceptron )。 
正如 第 1 章 中 所 介绍 的 ，NLITK 中 的 一 些 模型 需要 通过 nltk.aownloaaqa () 界 面 下 载 一 些 额外 的 
数据 。 平 均 感 知 器 模型 同样 需要 下 载 ， 如 图 7-2 所 示 。 
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@OO NLTK Downloader 
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Identifier ED Size 
abc Australian Broadcasting Commission 2006 1.4 MB installed 
alpino Alpino Dutch Treebank 2.7 MB installed 
averaged_perceptron_ta Averaged Perceptron Tagger 2.4 MB installed 
basque_grammars Grammars for Basque installed 
biocreative_ppi BioCreAtlvE (Critical Assessment of Information Extracti installed 
bllip_wsj_no_aux BLLIP Parser: WSJ Model installed 
book_grammars Grammars from NLTK Book installed 
brown Brown Corpus installed 
brown_tei Brown Corpus (TEI XML Version) installed 
cess_cat CESS-CAT Treebank installed 
cess_esp CESS-ESP Treebank installed 
chat80 Chat-80 Data Files installed 
city_database City Database installed 
cmudict The Carnegie Mellon Pronouncing Dictionary (0.6) installed 
comparative_sentences | Comparative Sentence Dataset installed 
comtrans ComTrans Corpus Sample installed 
| Download | | Refresh _ 


Server Index: Ihttps://raw.githubusercontent.com/nltk/nltk data/gh-pages/index.xml 


Download Directory: |/Users/marcob/nltk data 























7-2 ”NLTK 下 载 界面 高 亮 了 用 于 词性 标注 的 平均 感知 器 模型 
确保 安装 好 相关 的 模型 后 ， 可 以 在 一 些 示 例句 子 上 测试 pos_tag () 函数 。 

















>>> from nltk import pos tag 

>>> tokens = word tokenize("This sentence is short, nice and to the point") 

>>> pos_tag(tokens) 

[('This', 'DT'), ('sentence', 'NN'), ('is', 'VBZ'), ('short', 'JJ'), (',', 

','), ('nice', 'JJ'), ('and', 'CC'), ('to', 'TO'), ('the', 'DT'), ('point', 

'NN')] 

pos_tag () 函数 的 输出 是 一 个 元 组 列表 ， 其 中 每 个 元 组 都 是 (token，tag) 格 式 。 例 如 ， 第 
一 个 词 项 This 是 一 个 限定 词 ， 第 二 个 词 项 sentence 是 一 个 背 见 名 词 等 。 


词性 标注 的 一 个 常见 问题 是 , 虽然 研究 人 员 对 一 些 基 本 的 类 别 达成 了 共识 , 但 并 没有 一 个 
全 正确 的 标签 集合 , 因此 使 用 不 同 的 标签 器 会 产生 不 同 结果 。 由 于 自然 语言 的 模 精 性 和 细微 关 别 。 
一 些 单词 在 不 同 语 境 下 的 标签 是 不 同 的 ,实际 上 ,很 多 英语 单词 可 以 分 到 多 个 类 别 ,例如 单词 fish、 
walk 和 view 既是 动词 又 是 名 词 。 


词性 标注 通常 作为 最 后 一 步 处 理 。 具 体 来 说 , 探索 词性 信息 至 少 在 两 种 情况 下 非常 有 用 : 查 
找 单词 的 原始 词 干 ( 查看 下 面 的 单词 归 一 化 ) 时 , 以 及 尝试 从 非 结 构 化 文本 中 抽取 结构 化 信息 ( 参 
见 7.3.2 节 ) 时 。 


4. 单词 归 一 化 


分 词 和 词性 标注 在 很 多 应 用 中 都 是 常见 的 预 处 理 步骤。 根据 不 同 的 任务 ， 可 能 需要 应 用 一 些 
额外 的 步 怠 来 提高 应 用 的 准确 度 。 
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这 里 我 们 将 讨论 单词 归 一 化 ， 以 便 对 单个 词 执行 一 些 额 外 的 步骤。 
e@ 大 小 写 归 一 化 
为 了 突出 文本 归 一 化 的 需求 ， 我 们 从 以 下 的 简单 示例 开始 。 


>>> "president" == "President" 
False 


虽然 对 于 大 多 数 程序 员 来 说 , president 和 President 显然 是 两 个 不 同 的 字符 串 , 但 是 从 


语言 学 的 角度 来 看 , 通常 需要 将 这 两 个 单词 作为 相同 单词 。 例 如 ， 当 计算 频率 时 ,我 们 不 希望 对 
同样 的 两 个 单词 分 别 计算 频率 。 


实现 该 需求 的 方法 之 一 是 执行 大 小 写 转换 ， 将 整个 文本 转换 为 小 写 或 大 写 。 














>>> "president" .Lower() == "President" .Lower() 
True 


在 这 个 示例 中 ， 我 们 通过 小 写 转换 对 所 有 单词 进行 转换 ， 以 便 同 样 的 词 可 以 被 当成 一 个 。 


需要 注意 的 是 ,转换 不 可 逆 。 如 果 用 小 写 版 本 覆盖 了 文本 ,那么 不 能 重 现 原始 文本 。 在 很 多 
应 用 中 ,对 文本 进行 归 一 化 时 ， 可 能 需要 向 用 户 显 示 原 始 文 本 。 这 种 情况 下 ,保留 原始 文本 并 将 
其 作为 不 可 变 的 数据 非常 重要 。 

另外 还 需要 注意 的 是 ,文本 归 一 化 并 不 总 能 带 来 期 望 的 结果 。 典 型 的 示例 是 United States 的 
首 字母 缩写 形式 US ， 该 缩写 归 一 化 后 会 映射 为 人 称 代 词 us。 进 行 试 错 对 于 发 现 其 他 错误 案例 是 
必要 的 。 

@ 词 干 提取 

在 英语 和 其 他 一 些 语言 中 , 有 些 单词 在 形式 上 不 同 , 但 实际 上 具有 同样 的 含义 , 如 fish、 fishes 
和 fishing。 将 这 些 单词 映射 为 共同 的 概念 性 类 在 一 些 场景 下 有 用 , 这 些 场景 包括 对 匹配 单词 的 含 
义 感 兴趣 ， 而 不 是 对 精确 的 拼写 感 兴趣 。 

这 个 映射 过 程 称 作词 干 提取 ( stemming )， 单 词 的 词根 形式 也 称 作词 干 。 一 种 常见 的 词 干 提 
取 方 法 是 后 缀 去 除 ， 即 去 除 单词 的 结尾 字母 直到 达到 词根 形式 。 一 种 非常 经 典 且 广 泛 使 用 的 后 绥 
去 除法 是 Porter Stemmer (一 个 后 级 去 除 算法 ，MLF. Porter，1980 )。 


NLTK 提供 了 Porter Stemmer 和 其 他 词 干 提取 的 实现 ， 如 下 所 示 。 




































































>>> from nltk.stem import PorterStemmer 
>>> stemmer = PorterStemmer() 

>>> stemmer.stem('fish') 

'fish' 

>>> stemmer.stem('fishes') 

'fish' 
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>>> stemmer.stem('fishing') 
'fish' 


与 大 小 写 归 一 化 类 似 , 词 干 提取 也 是 不 可 道 的 。 如 果 处 理 词 干 提取 词 ， 建 议 你 保留 一 份 原始 
文本 的 副本 ， 以 防 需要 重 现 。 


与 大 小 写 归 一 化 不 同 的 是 , 词 干 提取 是 一 个 视 语 言 而 不 同 的 任务 。Snowball 是 一 个 可 选 的 词 
干 提取 右 ， 文 持 多 种 语言 ， 因 此 在 处 理 多 语言 数据 时 非常 有 用 。 

















>>> from nltk.stem import SnowballStemmer 

>>> SnowballStemmer.languages 

('danish', 'dutch', 'english', 'finnish', 'french', 'german', 'hungarian', 
'italian', 'norwegian', 'porter', 'portuguese', 'romanian', 'russian', 
'spanish', 'swedish') 

>>> stemmer = SnowballSstemmer('italian') 

>>> stemmer.stem('pesce') # fish (noun) 

'pesc 

>>> stemmer.stem('pesci') # fishes 

'pesc' 

>>> stemmer.stem('pescare') # fishing 

'pesc' 


需要 记 住 的 最 后 一 个 细节 是 ， 词 干 只 是 单词 的 词根 ， 并 不 总 是 真正 的 单词 。 

@ 词 形 还 原 

与 词 干 提取 类 似 ， 词 形 还 原 也 对 不 同形 式 的 单词 进行 分 组 。 这 样 一 来 ,可 以 将 不 同形 式 的 单 
词 当 作 同 一 个 单词 进行 分 析 。 

与 词 干 提取 不 同 的 是 , 该 过 程 需要 一 些 额外 知识 ,如 需要 进行 词 形 还 原 的 单词 的 正确 词性 标 
签 。 词 形 还 原 的 输出 称 为 词 目 (lemma )， 它 是 一 个 有 效 的 单词 。 简 单 的 后 绥 去 除法 对 词 形 还 原 


不 起 作用 ， 因 为 一 些 不 规则 动词 形式 有 完全 不 同 的 形态 ， 如 go、goes 、going 和 went 都 应 该 映射 
为 gg， 但 词 干 提取 器 对 went 的 处 理 就 出 错 了 。 



































>>> from nltk.stem import PorterStemmer 
>>> stemmer = PorterStemmer() 

>>> stemmer.stem('go') 

:go 

>>> stemmer.stem('went') 

"Went " 


NLTK 中 的 词 形 还 原 用 WordNet 实现 。WordNet 是 一 个 词汇 资源 ， 将 英语 单词 分 成 同义词 集 
合 (也 称 为 synsets )， 并 提供 单词 的 定义 和 其 他 信息 。 


>>> from nltk.stem import WordNetLemmatizer 
>>> lemmatizer = WordNetLemmatizer!() 

>>> lemmatizer.lemmatize('go', pos='v') 

1go' 

>>> lemmatizer.lemmatize('went') 











7.3 ”自然 语言 处 理 基础 183 





"Went 

>>> lemmatizer.lemmatize('went', pos='v') 

go， 

lemmatize() 函数 还 接受 一 个 可 选 参数 , 即 词性 标签 。 如 果 没 有 词性 标签 , 那么 词 形 还 原 顺 
可 能 就 会 失败 ， 如 下 所 示 。 








>>> lemmatizer.lemmatize('am') 
>>> lemmatizer.lemmatize('am', pos='Vv') 
>>> lemmatizer.lemmatize('is') 
>>> lemmatizer.lemmatize('is', pos='Vv') 


>>> lemmatizer.lemmatize('are') 

'are! 

>>> lemmatizer.lemmatize('are', pos='Vv') 

"be' 

基于 WordNet 词 形 还 原 的 可 用 词性 标签 可 分 为 几 类 : 形容 词 (a )、 名 词 (n)、 动 词 (v) 和 
副词 (r )。 


@ 停 用 词 移 除 


停 用 词 是 指 并 不 承载 内 容 的 词 , 至 少 单独 来 看 是 这 样 , 但 它们 在 大 多 数 自然 语言 中 非常 常见 ， 
如 冠 词 和 连词 。 信 息 检 索 领 域 的 早期 研究 (如 Luhn，1958 ) 显示 ， 最 有 意义 的 单词 并 不 是 词 频 
最 高 的 词 ( 也 不 是 最 低 的 词 )。 该 研究 的 进一步 发 展 是 关于 如 何 去 除 这 些 词 而 不 丢失 有 意义 的 内 
容 。 在 硬盘 空间 和 内 存 有 限 且 昂贵 的 年 代 , 去 除 停 用 词 可 以 大 幅 减少 数据 , 在 构建 文档 集合 的 索 
引 时 节约 一 些 存 储 空间 。 


如 今 ， 太 兆 字 节 更 加 便宜 , 节约 硬盘 空间 的 动机 比 以 前 弱 了 , 但 去 除 不 感 兴趣 的 单词 是 否 对 
特定 应 用 有 益 仍然 是 一 个 问题 。 


找到 去 除 停 用 词 后 对 应 用 有 害 的 反例 非常 容易 。 设 想 一 个 搜索 引擎 不 对 停 用 词 进行 索引 ，, 那 
么 如 何 找到 关于 The Who (一 个 英国 播 滚 乐队 ) 或 者 莎士比亚 著名 台词 “To be, ornottobe: that is 
the question” 的 网 页 ”乐队 名 称 和 台词 中 的 所 有 词 都 是 常见 的 英语 停 用 词 (除了 question )。 不 能 
去 除 停 用 词 的 例子 数不胜数 ， 现 代 搜 索引 擎 ( 如 Google 和 Bing ) 都 在 索引 中 保留 了 停 用 词 。 

另 一 种 做 法 是 在 频率 分 析 中 去 除 不 感 兴趣 的 词 。 通 过 观察 一 个 单词 的 全 局 文档 频率 ( 有 它 出 
现 的 文档 数量 与 总 文档 数量 的 比值 )， 我 们 可 以 定义 任意 阔 值 以 去 除 频率 太 高 和 太 低 的 词 。 该 方 
法 也 在 scikit-learn 库 中 实现 了 ,其 中 不 同 的 向 量化 构造 器 ( 如 Tfidfvectorizer 类 ) 都 可 以 定 
义 max_df 和 min gdf 参数 。 


在 特定 领域 的 集合 中 ， 一些 词 的 频率 会 比 在 常用 英语 中 更 高 。 例 如 ， 在 电影 评论 集合 中 ， 
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movie 或 actor 可 能 会 出 现在 几乎 所 有 的 文档 中 。 虽 然 它们 不 是 停 用 词 ( 其 实 即使 单独 来 看 , 这 些 
词 也 都 是 有 意义 的 )， 我 们 也 可 以 将 这 些 词 当 作 停 用 词 处 理 。 只 通过 词 频 自动 去 除 这 些 词 也 会 带 
来 额外 的 问题 : 如 何 获取 bad movie 或 者 terrific actor 这 样 的 信息 ? 


经 过 上 述 讨论 后 , 关于 停 用 词 移 除 的 总 结 如 下 : 停 用 词 的 移 除 或 保留 与 应 用 高 度 相 关 。 因 此 ， 
不 同 应 用 需要 对 停 用 词 移 除 这 个 预 处 理 步骤 做 执行 和 不 执行 的 测试 ， 并 比较 效果 。 

网 上 有 一 些 常 见 英语 单词 的 清单 可 以 用 ， 因 此 自 定义 停 用 词 列表 非常 简单 。NLTK 也 提供 了 
自己 的 停 用 词 列表 ， 如 下 所 示 。 

































































>>> from nltk.corpus import stopwords 

>>> stop_ list = stopwords.words('english') 

>>> len(stop_ list) 

127 

>>> stop_list[:10] # 前 10 个 单词 

['i', 'me', 'my', 'myself', 'we', 'our', 'ours', 'ourselves', 'you', 
ryour'] 


@ 同义词 映射 


本 节 要 讨论 的 最 后 一 个 归 一 化 步骤 是 将 一 组 同义词 映射 到 同一 项 ,其 动机 和 大 小 写 归 一 化 非 
常 相似 ,唯一 的 不 同 之 处 是 , 同义词 并 不 是 同一 个 单词 。 对 这 些 词 的 映射 可 能 是 模糊 的 ， 因 为 这 
些 词 在 不 同 的 语 境 下 表示 不 同 的 含义 。 


最 简单 的 一 种 方法 是 使 用 受 控 词 表 ， 也 就 是 提供 映射 关系 的 词汇 资源 。 在 Python 中 ， 它 是 
字典 形式 的 。 


>>> synonyms = {'big': 'large', 'purchase': 'buy'} 


在 这 个 示例 中 ， 我 们 可 以 用 synonyms 将 单词 pig 翻译 成 large， 并 将 单词 purchase 翻 
译 成 puy。 该 替换 过 程 也 非常 简单 ， 即 获取 字典 中 期 望 的 键 , 例如 ，synonyms['big'] 将 返回 
large。 一 个 字典 还 有 get (key，default=None) 方 法 ， 其 作用 是 获取 特定 的 键 。 该 方法 需要 
第 二 个 参数 ， 若 键 不 存在 ， 则 将 第 二 个 参数 作为 默认 值 。 
















































































>>> text = "I want to purchase a book on Big Data".lower().split() 
>>> text 

['i', 'want', 'to', 'purchase', 'a', 'book', 'on', 'big', 'data'] 
>>> Dew text = [synonyms .get (word, word) for word in text] 


>>> Dew text 
['i', 'want', 'to', 'buy', 'a', 'book', 'on', 'large', 'data'] 


以 上 代码 用 列表 推导 式 迭 代 text 列表 。 每 个 列表 中 的 worg 用 于 从 synonyms 字典 中 检索 
一 个 潜在 的 同义词 。 如 果 没 有 可 用 的 同义词 ， 使 用 set () 的 第 二 个 参数 将 不 会 导致 异常 
KeyError, 而 是 将 原始 单词 作为 输出 。 


处 理 自然 语言 时 总 会 出 现 疏 义 问 题 。 一 方面 , 将 purchase 映射 成 buy 似乎 很 合理 , 但 从 前 面 
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的 示例 来 看 ，large data 的 含义 是 什么 呢 ? 问题 是 我 们 没有 考虑 单词 big 的 使 用 语 境 ， 这 里 不 应 该 
将 big 孤立 来 看 ， 而 应 该 作为 短语 Big Data 的 一 部 分 。 除 了 这 个 特定 的 示例 ， 还 可 以 在 自然 语言 
中 找到 非常 多 一 词 多 义 的 示例 。 


如 前 述 WordNet 这 样 的 资源 对 于 一 个 单词 所 有 可 能 的 语义 分 组 提供 了 丰富 的 信息 。 为 了 强调 
这 个 问题 并 不 能 简单 地 用 一 个 字典 表示 ， 思 考 以 下 示例 。 


>>> from nltk.corpus import wordnet 

>>> syns = wordnet.synsets('big', pos='a') 
>>> for syn in syns: 

print (syn.lemma names()) 


























'large', 'big'] 

'big'] 

'bad', 'big'] 

'big'] 

'big', 'large', 'prominent'] 

'big', 'heavy'] 

'boastful', 'braggart', 'bragging', 'braggy', 'big', 'cock-a-hoop', 
'crowing', 'self-aggrandizing', 'self-aggrandising'] 

['big', 'swelled', 'vainglorious'] 

['adult', 'big', 'full-grown', 'fully grown', 'grown', 'grownup'] 
['big'] 
[ee 
| 


王 一 王 一 一 一 一 ，， 


big', 'large', 'magnanimous'] 

big', 'bighearted', 'bounteous', 'bountiful', 'freehanded', 'handsome', 
'giving', 'liberal', 'openhanded'] 
['big', 'enceinte', 'expectant', 'gravid', 'great', 'large', 'heavy', 
'with child'] 


我 们 可 以 看 到 , 单词 big 用 于 多 个 同义词 集合 中 。 虽然 它们 或 多 或 少 是 关于 big 这 个 概念 的 ， 
但 必须 合理 地 捕捉 其 中 的 细微 差别 。 












































换 句 话说 , 这 并 不 是 一 个 简单 的 问题 。 单词 语义 消 卜 是 一 个 非常 活跃 的 研究 领域 , 对 一 些 有 
关 语 言 的 应 用 都 有 影响 。 特定 数据 领域 的 一 些 应 用 可 能 会 受益 于 较 小 的 受 控 词 表 , 但 在 大 部 分 党 
用 英语 的 场景 下 ， 需 要 特别 小 心地 处 理 同义词 。 








7.3.2 ”信息 抽取 


自然 语言 处 理 中 较 难 但 非常 有 趣 的 任务 是 从 非 结构 化 文本 中 抽取 结构 化 信息 。 该 过 程 通常 叫 
作 信 息 抽取 ， 它 包括 一 系列 子 任务 ， 其 中 最 流行 的 是 命名 实体 识别 (named entity recognition ， 
NER ), 





命名 实体 识别 的 目的 是 识别 提 到 的 实体 。 例 如, 识别 一 段 文本 中 的 人 名 或 公司 名 称 并 为 其 分 
配 正确 的 标签 。 常 见 的 实体 类 型 包括 人 名 、 机 构 名 称 、 地 点 、 数 值 、 时 间 和 货币 。 举 个 例子 , 查 
看 以 下 文本 : 
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“The Ford Motor Company (commonly referred to simply as Ford) is an American 
multinational automaker headquartered in Dearborn, Michigan, a suburb of Detroit. It was 


founded by Henry Ford and incorporated on June 16, 1903.” 
( 从 维基 百科 的 福特 公司 页 面 获得 的 ) 以 上 片段 包含 一 些 命名 实体 。 具体 的 总 结 如 表 7-3 所 示 。 





表 7-3 命名 实体 





实 体 实体 类 型 
Ford Motor Company 机 构 
Dearborn, Michigan 地 点 
Detroit 地 点 
Henry Ford 人 物 
June 16, 1903 时 间 


从 抽取 结构 化 信息 的 视角 来 看 ， 这 段 文本 实际 上 还 描述 了 实体 间 的 关系 ， 如 表 7-4 所 示 。 





表 7-4 实体 间 的 关系 





主 语 关 系 宾 语 
Ford Motor Company Located in Detroit 
Ford Motor Company Founded by Henry Ford 























通常 情况 下 ,可 以 从 文本 中 推断 出 一 些 额外 关系 。 例 如， 如 果 福 特 是 一 家 位 于 底特律 的 美国 
公司 ， 那 么 我 们 可 以 推断 出 底特律 在 美 


知识 表示 和 推理 
福特 的 例子 只 是 一 个 简化 的 示例 。 需 要 注意 的 是 ， 知 识 表 示 是 一 个 复杂 的 主题 ， 
时 并 且 本 身 是 一 个 研究 领域 ， 它 涉及 多 个 学 科 ， 其 中 包括 人 工 智能 、 信 息 检 索 、 自 











el 





o 


然 语言 处 理 、 数 据 库 和 语义 网 。 
现在 有 很 多 知识 表示 的 标准 (如 RDF 格式 ), 在 设计 知识 库 的 结构 时 ， 理 解 应 用 
所 处 的 商业 领域 以 及 如 何 使 用 这 些 知 识 非常 重要 。 


言 息 抽取 系统 的 大 致 架构 如 图 7-3 所 示 。 


上 述 信息 抽取 系统 的 第 一 个 模块 是 预 处 理 ， 但 它 实 际 上 包含 了 7.3.1 节 中 介绍 的 多 个 步骤 。 
原始 输入 通常 是 纯 文本 , 因此 是 一 个 字符 串 。 该 假设 意味 着 我 们 已 经 从 相关 格式 (如 JSON 文件 、 
数据 库 等 ) 中 抽取 了 文本 。 预 处 理 的 输出 结果 取决 于 所 选择 的 步 又。 为 了 抽取 实体 ,没有 执行 停 
用 词 移 除 、 词 干 提 取 和 归 一 化 等 步 又 ,因为 这 样 会 改变 原始 单词 的 序列 ， 并 可 能 妨碍 多 项 实体 的 
识别 。 例 如 ， 如 果 将 Bank of America 转换 为 bank america， 那 么 不 可 能 正确 地 识别 实体 。 这 里 只 
会 进行 分 词 和 词性 标注 ， 因 此 ， 输 出 是 一 个 元 组 列表 (term,，pos_tag)。 
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词 项 
和 标注 





实体 抽取 
关系 抽取 


结构 化 知识 














图 7-3 ”信息 抽取 系统 的 概览 


流水 线 的 第 二 个 步骤 是 识别 实体 。 从 一 组 词 项 的 列表 出 发 , 实体 被 分 割 并 根据 其 类 型 进行 标 
注 。 对 于 不 同 的 应 用 , 我 们 可 能 只 对 普通 名 词 感 兴趣 ， 也 可 能 希望 包括 无 定名 词 或 名 词 词组 。 该 
步骤 的 输出 是 一 个 块 列 表 ,， 这 些 块 是 短小 且 不 重 释 的 短语 ,并 且 是 以 树 的 形式 组 织 的 。 分 块 也 称 
为 浅 解 析 或 者 部 分 解析 。 与 此 概念 相对 的 是 完全 解析 ， 目 的 是 创建 一 个 完全 解析 树 。 


最 后 一 步 是 识别 实体 间 的 关系 。 关 系 非常 有 趣 ， 它 允许 我 们 推断 文本 中 的 实体 。 由 于 语言 处 
理 的 困难 性 ， 这 一 步 通 常 是 最 难 的 。 它 也 取决 于 前 一 阶段 的 输出 质量 。 例 如 ， 如 果实 体 抽 取 的 结 
果 缺 失 某 个 实体 ， 那 么 就 会 缺失 所 有 对 应 的 相关 关系 。 最 后 的 输出 可 以 由 一 个 元 组 (subject， 
relation，object) 列 表 表示 ， 福 特 公司 的 示例 中 介绍 过 该 格式 ， 也 可 以 根据 应 用 的 需要 定义 
为 其 他 格式 。 


NLTK 开 箱 即 用 的 实现 允许 我 们 轻松 地 执行 命名 实体 抽取 。nltk.chunk.ne_chunk () 函数 
将 (term，pos_tag) 格 式 的 一 个 元 组 列表 作为 输入 ， 并 返回 一 个 解析 树 。 如 果 正 确 识别 ， 每 个 
命名 实体 都 是 与 对 应 的 实体 类 型 ( 如 人 名 、 位 置 等 ) 相关 联 的 。 该 函数 还 有 第 二 个 可 选 参数 
binary， 默 认为 False。 当 该 参数 为 True 时 ,该 函数 会 取消 实体 类 型 识别 ， 而 且 实 体 只 会 被 
简单 地 标注 为 NE (命名 实体 )。 


以 下 示例 将 实现 以 上 步骤 并 用 维基 百科 API 获取 已 识别 实体 的 简短 摘要 。 
首先 定义 库 的 导 人 和 ArgumentParser。 
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# Chap07/blogs_entities.py 

from argparse import ArgumentParser 
from nltk.tokenize import wordq_tokenize 
from nltk import pos_tag 

from nltk.chunk import ne_chunk 

import wikipedia 


def get_parser(): 
parser = ArgumentParser() 
parser.add_argument ('--entity') 
return parser 


然后 定义 一 个 函数 来 迭代 进行 过 词性 标注 的 词 项 列表 , 并 返回 一 个 名 词 短语 列表 。 名 词 短语 
是 标注 了 有 关 名 词 标签 (如 NN 或 NNP ) 的 词 项 序列 。 可 以 将 该 名 词 列表 与 NLTK 识别 的 实际 实 
体 进 行 比较 。 























def get_noun phrases (pos_tagged tokens): 
lL mous 
previous_pos = None 
current_chunk = [|] 
for (token, pos) in pos_tagged tokens: 


if pos.startswith('NN'): 
if pos == previous_pos: 
current_chunk.append (token) 
else: 
if current_chunk: 
all_ nouns.append((' '.join(current_chunk), 
previous_pos)) 
current_chunk = [token!] 
else: 
if current_chunk: 
all_ nouns.append((' '.join(current_chunk), 
previous_pos)) 
current_chunk = [|] 








previous_pos = pos 
if current_chunk: 

all_nouns.append((' '.join(current_chunk), pos)) 
return all_nouns 


接着 定义 一 个 接收 解析 树 和 实体 类 型 的 函数 ,并 根据 特定 的 实体 类 型 从 给 定 的 树 返 回 实体 
列表 。 





def get_entities(tree, entity_type): 
for ne in tree.subtrees(): 


if ne.label() == entity_type: 
tokens = [t[0] for t in ne.leaves()] 
yield ' '.join(tokens) 


最 后 ,脚本 的 核心 逻辑 是 : 从 维基 百科 获取 特定 的 实体 ,检索 它 的 简短 摘要 ， 然 后 对 摘要 进 
行 分 词 和 词性 标注 。 从 简短 的 摘要 中 识别 出 名 词 短 语 和 命名 实体 。 每 个 实体 会 与 来 自 维 基 百 科 的 
摘要 同时 显示 。 
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if name., A 
parser = get_parser() 
args = parser.parse_args() 





entity = wikipedia.summary (args.entity, sentences=2) 


tokens = word_ tokenize(entity) 
tagged_tokens = pos_tag (tokens) 
chunks = ne_chunk (tagged tokens, binary=True) 


print ("-—-—---— wi 

print ("Description of {}".format (args.entity)) 

print (entity) 

priint( =-=-~ ny 

print ("Noun phrases in description:") 

for noun in get_noun phrases (tagged tokens): 
print (noun[0]) # tuple (noun, pos_tag) 

Brint (v= > 下 

print ("Named entities in description:") 

for ne in get_ entities(chunks, entity_type='NE'): 
summary = wikipedia.summary (ne, sentences=1) 
print ("{}: {}".format (ne, summary)) 


可 以 用 以 下 命令 执行 以 上 脚本 。 





$ Python blogs entities.py --entity London 


代码 的 部 分 输出 如 图 7-4 所 示 。 





Description of London 


London /'landan/ is the capital and most populous city of England and 
the United Kingdom. standing on the River Thames in the south east of 
Great Britain, London has been a major settlement for two millennia. 


Noun phrases in description: 

London 

/'landan/ 

capital 

# more nouns ... 

Named entities in description: 

London: London /'‘lnnden/ is the capital and most populous city of 
England and the United Kingdom. 


England: England /'ringland/ is a country that is part of the United # 
# more entities ... 

















图 7-4 ”代码 的 输出 
识别 出 的 完整 的 名 词 短语 如 图 7-5 所 示 。 








London, /'landan/, capital, city, England, United Kingdom, Standing, 
River Thames, south east, Great Britain, London, settlement, and 
millennia 











图 7-5 识别 出 的 名 词 短语 
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在 这 个 示例 中 , 只 有 standing 被 错误 地 标注 为 名 词 ,可 能 是 因为 其 首 字 母 大 写 的 S, 但 这 只 
是 因为 它 出 现在 句子 的 开头 。 虽然 不 一 定 所 有 词 都 是 我 们 感 兴趣 的 (如 Standqingdg、SsSettlement、 
millennia ), 但 所 有 名 词 都 被 识别 出 了 。 另 一 方面 ,识别 的 命名 实体 列表 看 起 来 非常 棒 :Londqon、 


England、 United Kingdom、River Thames、 Great Britain 和 London。 


























7.4 小结 





本 音 介 绍 了 自然 语言 处 理 ， 这 是 一 个 充满 挑战 和 机 遇 的 复杂 领域 。 


本 章 的 第 一 部 分 重点 介绍 了 如 何 从 Web 上 获取 文本 数据 。 博 客 是 文本 挖掘 的 天 然 候 选 对象 ， 
因为 其 中 充满 了 丰富 的 文本 数据 。 处 理 了 两 个 最 流行 的 免费 博客 平台 ( WordPress.com 和 Blogger ) 
后 ， 我 们 将 数据 获取 的 问题 统一 为 如 何 从 网 站 订阅 源 的 XML 解析 获得 数据 ， 其 中 特别 介绍 了 两 
个 订阅 格式 RSS 和 Atom。 基 于 在 网 站 中 的 重要 性 以 及 在 网 络 用 户 每 日 生活 中 的 重要 程度 ， 维 基 
百科 也 是 非常 重要 的 文本 数据 获取 源 。 我 们 介绍 了 如 何 用 Python 与 这 些 服务 交互 ， 实 现 途径 是 
通过 Python 中 可 用 的 库 或 者 快速 编写 我 们 自己 的 一 些 函 数 。 


本 章 的 第 二 部 分 是 关于 自然 语言 处 理 的 。 本 书 前 面 已 经 介绍 过 一 些 自然 语言 处 理 的 概念 , 但 


这 里 是 首次 用 更 系统 和 正式 的 方式 介绍 。 我们 介绍 了 自然 语言 处 理 流水 线 , 该 流水 线 可 以 实现 从 
原始 文本 到 命名 实体 识别 的 所 有 必需 预 处 理 步 又 ， 从 而 使 得 高 级 的 应 用 成 为 可 能 。 


下 一 章 将 重点 介绍 其 他 社会 媒体 API， 为 更 广泛 的 数据 挖掘 提供 可 能 。 


















































第 8 章 


挖掘 所 有 数据 








本 章 将 介绍 一 些 可 用 的 社会 媒体 API。 我 们 将 讨论 以 下 主题 : 


口 如 何 从 YouTube 挖掘 视频 

口 如 何 从 GitHub 挖掘 开源 项 目 

口 如 何 从 Yelp 挖掘 本 地 商家 

口 如 何 用 requests 库 调 用 任何 Web API 

口 如 何 将 你 的 requests 请 求 包装 到 一 个 自 定 义 的 客户 端 











8.1 很 多 社交 API 


前 面 的 每 一 章 都 重点 介绍 了 一 种 近 几 年 特别 流行 的 社会 媒体 平台 。 但 故事 还 远 未 结束 。 很 多 
平台 都 提供 了 社交 网 络 功能 ， 以 及 用 于 挖掘 数据 的 非常 好 的 API。 不 过 ,详尽 描述 所 有 可 能 的 
API 及 其 相应 示例 超出 了 本 书 的 范围 。 


为 了 帮助 你 进一步 思考 ， 本 章 解 决 社会 媒体 挖掘 的 两 个 方面 。 首先 , 我 们 将 介绍 一 些 非常 有 
趣 的 API 以 便 搜 索 和 挖掘 一 些 复杂 的 实体 ， 如 视频 、 开 源 项 目 或 本 地 商家 。 其 次 ,我 们 将 介绍 特 
定 的 API 没 有 可 用 的 Python 客户 端 时 应 该 如 何 做 。 











8.2 挖掘 YouTube 上 的 视频 


YouTube 可 能 不 需要 过 多 介绍 ， 它 是 世界 上 访问 次 数 最 多 的 网 站 之 一 (2016 年 3 月 的 Alexa 
排名 中 位 列 第 二 )。 该 平台 上 分 享 的 视频 服务 包括 的 内 容 非常 广泛 ， 并 且 这 些 内 容 由 广泛 的 作者 
群体 ( 从 业余 视频 博 主 到 商业 公司 ) 生产 。YouTube 的 注册 用 户 可 以 上 传 视频 、 对 视频 评分 并 评 
论 视频 。 查 看 和 分 享 并 不 需要 用 户 注册 。 


YouTube 于 2006 年 被 Google 收购 ， 因 此 如 今 它 是 Google 平台 的 一 部 分 。 我 们 已 经 在 第 5 
章 和 第 7 章 中 介绍 过 Google 的 其 他 服务 ， 特 别 是 Google+ 和 Blogger。YouTube 提供 了 三 种 API 
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帮助 你 将 自己 的 应 用 整合 到 YouTube: YouTube 数 据 、YouTube 分 析 和 YouTube 报告 。 我 们 将 重 
点 介绍 第 一 种 ， 并 介绍 如 何 从 YouTube 检索 和 挖掘 数据 ， 而 其 他 两 种 都 是 为 内 容 生产 者 提供 的 。 


接 入 YouTube 数据 API 的 第 一 步 与 我 们 前 面 看 到 的 非常 类 似 , 因此 你 可 以 回顾 第 5 章 来 查看 
如 何 接 入 Google Developers Console。 如 果 已 经 在 Google Developers Console 注册 了 凭证， 你 可 
以 打开 YouTube 数据 API， 如 图 8-1 所 示 。 


be 
YouTube Data API v3 


The YouTube Data API v3 is an APl that provides access to YouTube data, such 
as videos, playlists, and channels. 

Learn more 

Try this APlI in APls Explorer 




















图 8-1 从 Google Developers Console 打开 YouTube 数据 API 


通过 Google Developers Console 的 Credentials 选项 卡 ， 我 们 可 以 重复 使 用 第 5 章 中 所 创建 
Google+ 项 目的 API 密 钥 。 解 决 好 凭证 后 ， 可 以 将 我 们 的 Google API 密 钥 作 为 一 个 环境 变量 。 








$ export GOOGLE API KEY="your-api-key" 

我 们 将 重用 用 于 其 他 Google 服务 的 Python 客户 端 ， 可 以 通过 CheeseShop 安装 该 客户 端 。 

$ pip install google-api-python-client 

提醒 一 句 , 以 上 安装 的 包 也 可 以 用 googleapiclient 的 名 称 , 以 apiclient 作为 别名 (在 
示例 代码 中 使 用 )。 

该 API 的 接 入 限制 使 用 了 一 个 配额 系统 。 每 个 应 用 每 天 的 访问 量 上 限 是 1 000 000 次。 对 不 


同 端点 的 不 同调 用 也 有 不 同 的 配额 ， 但 是 1 000 000 的 频率 限制 对 于 我 们 做 实验 来 说 是 充分 够 用 
的 。 具 体 的 配额 和 使 用 可 以 在 Google Developers Console 中 查看 。 




































































与 YouTube 数据 API 交互 的 第 一 个 示例 是 搜索 应 用 。youtube_search_video.py 脚本 实 
现 了 对 search.1ist API 端 点 的 调用 。 该 端点 的 访问 配额 是 100 次。 





# Chap08/youtube_search video.py 
import os 

import json 

from datetime import datetime 

from argparse import ArgumentParser 
from apiclient.discovery import build 


def get_parser (): 
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parser = ArgumentParser () 
parser.add_argument ('--query') 
parser.add argument ('--n', type=int) 


return parser 


让 下 name., == '__ main 





parser = get_parser( 


) 


args = parser.parse_args() 


api_key 
service 


iVv3! 


os.environ.get ('GOOGLE_ API_KEY') 
build('youtube', 


’ 


developerKey=api_key) 


search_ feed = service.search() 
search query = search feed.list (gq=args.query, 


part="id, snippet", 
maxResults=args.n, 
type='channel') 


search response = search query .execute!() 


print (json.dumps (search response, indent=4)) 


以 上 脚本 用 ArgumentParse 方法 解析 命令 行 参 数 。--query 参数 允许 我 们 向 API 调用 传 


递 查询， 而 --n 参数 ( 可 选 ， 


默认 为 10 ) 用 于 定义 我 们 希望 检索 的 结果 的 数量 。 








与 YouTube API 交 互 的 核心 由 service 对 象 处 理 ， 该 对 象 是 通过 调用 apiclient .discovery. 
build() 函数 实例 化 的 ， 这 与 Google+ API 和 Blogger API 的 交互 类 似 。 该 函数 的 两 个 可 选 参数 
是 服务 名 称 (youtupe ) 和 API 的 版 本 ( v3 )， 第 三 个 关键 字 参 数 是 API 密 钥 ， 我 们 已 经 将 其 定 
义 为 环境 变量 。 实 例 化 service 对 象 后 ， 可 以 调用 其 searcn ( ) 函数 来 构建 搜索 源 对 象 。 根 据 
实际 API 请 求 的 定义 ， 该 对 象 允许 我 们 调用 1ist () 函数 。 


list () 函数 只 以 关键 字 作为 输入 参数 。d 参数 是 我 们 传递 给 API 的 查询 。part 参数 允许 我 
们 定义 一 个 以 逗号 分 隔 的 属性 列表 , 其 中 应 该 包括 API 响应 , 最后, 我们 可 以 执行 对 API 的 调用 ， 
这 会 产生 一 个 啊 应 对 象 ( 即 一 个 Python 字典 )。 为 了 简洁 起 见 , 用 json .qumps () 函数 漂亮 地 打 


印 它 。 



































search_response 字典 有 几 个 第 一 层级 的 属性 ， 如 下 所 示 。 


口 etag 





口 pageInfo, 包括 resultsPerPage 和 totalResults 
口 items: 搜索 结果 列表 
口 kind: 结果 对 象 的 类 型 (本 例 中 为 youtube#searchListResponse ) 


口 regionCode: 两 个 字母 的 国家 代码 ， 如 GB 
口 nextPageToken: 一 个 令 牌 ， 用 于 创建 下 一 个 页 面 结果 的 调用 


在 items 列表 中 ， 每 个 项 是 一 个 搜索 结果 。 我 们 有 项 〈 一 个 视频 、 频 道 或 播放 列表 ) 的 ID 


194 第 


8 章 挖掘 所 有 数据 





以 及 一 段 包含 细节 的 描述 。 
有 关 视 频 的 一 些 有 趣 细节 如 下 所 示 。 








口 channelIdq: 视频 创建 者 的 ID 

口 channelTitle: 视频 创建 者 的 名 字 
口 title: 视频 的 标题 

D aescription: 视频 的 文本 描述 

D publishedAt: ISO 8601 格式 的 发 布 日 期 字符 串 


可 以 扩展 基础 查询 来 自 定 义 搜索 请 求 的 结果 ,例如 , 来自 脚 本 youtube_search video.py 


























中 的 查询 检索 的 不 只 是 视频 ,还 包括 播放 列表 或 频道 。 如 果 想 要 将 搜索 结果 限定 到 特定 对 象 ， 可 
() 函数 中 的 type 参数 ,， 它 以 video、playlist 或 channel 作为 值 。 此 外 , 我 们 
可 以 用 orger 属性 影响 结果 的 排序 。 该 属性 可 以 选择 以 下 其 中 之 一 。 


以 使 用 list 


DQ date 





最 后 ， 可 以 用 publishedBefore 和 pu 














日 期 。 


























: 按时 间 北 序 提 








E 列 〈 最 新 的 排 在 最 前 面 ) 
D rating: 将 结果 按 评分 从 高 到 低 排列 
口 relevance: 排序 的 默认 选项 ， 根 据 与 查询 语句 的 相关 性 排序 
口 title: 根据 标题 的 字母 顺序 排列 
D viaeocount: 根据 上 传 视 频 的 数量 对 频道 降序 排列 
D viewcount: 根据 观看 量 对 视频 从 高 到 低 排列 


blishedAfter 参数 将 搜索 结果 限制 到 特定 的 发 布 





我 们 在 以 下 示例 中 实践 以 上 信息 , 并 构建 一 个 搜索 API 端 点 的 自 定义 查询 。 假 设 我 们 想 检 索 
年 1 月 的 视频 ,并 硕 望 按照 相关 性 对 检索 结果 排序 ， 那 么 可 以 如 下 重 构 对 1ist () 


发 布 于 2016 
函数 的 调用 。 





search query = search feed.list( 


d=args .query, 
part="id, snippet", 
maxResults=args.n, 
type='video', 
publishedAfter='2016-01-01T00:00:002Z', 
publishedBefore='2016-02-01T00:00:002') 


publishedBefore 和 publishedAfter 参数 期 望 的 日 期 和 时 间 格 式 是 RFC 3339。 








为 了 处 到 








更 多 任意 数量 的 搜索 结果 , 我 们 





TH 


要 实现 








个 翻 页 机 制 。 最 简单 的 方法 是 将 对 搜索 


端点 的 调用 包 进 一 个 自 定义 函数 中 ， 并 迭代 不 同 的 页 面 ， 直 到 获得 期 望 的 结 
以 下 类 实现 了 一 个 自 定义 的 YouTube 客户 端 ， 该 客户 端 使 用 的 方法 仅 用 于 视频 搜索 。 
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class YoutubeClient (object) : 


def _ init_ _(self, api_ key): 
self.service = build('youtube', 
DN 


developerKey=api_key) 


def search videol(self, query, n_ results): 
search = self.service.search() 
request = search.list (gq=query, 
part="id, snippet", 
maxResults=n_results, 
type='video') 
all_results = [] 
while request andq lenl(all _ results) <= n_ results: 
response = request .execute!() 
try: 
for video in responsel['items']: 
all_results.append (video) 
except KeyError: 
break 
request = search.list next (request, response) 
return all_results[:n_results] 


在 初始 化 过 程 中 ，Youtubeclient 类 需要 用 api_key 来 调用 apiclient.discovery. 
builg() 方 法 并 创建 服务 。 


搜索 逻辑 的 核心 是 在 search_vigdeo() 方 法 中 实现 的 ， 它 需要 两 个 参数 : 查询 ， 以 及 期 望 
的 结果 数量 。 我 们 先 用 1ist () 方 法 建立 request 对 象 , 和 之 前 一 样 。 while 循环 检查 request 
对 象 是 否 为 None， 以 及 我 们 是 否 达到 了 期 望 的 结果 数量 。 查 询 的 运行 会 检索 response 对 象 中 
的 结果 ， 该 对 象 是 一 个 字典 。 关 于 视频 的 数据 列 在 *esponse['items'] 中 ， 并 追加 到 了 
all_results 列表 中 ,循环 的 最 后 一 个 步骤 是 调用 1ist_next () 方 法 , 该 方法 会 覆盖 request 
对 象 ， 为 下 一 个 页 面 的 结果 做 准备 。 


Youtubeclient 类 的 应 用 如 下 所 示 。 












































# Chap08/youtube_search video pagination.py 
import os 

import json 

from argparse import ArgumentParseL 

from apiclient.discovery import build 


def get_parser(): 
parser = ArgumentpPparser () 





parser.add _ argument ('--query') 
parser.add argument ('--n', default=50, type=int) 
parser.add _ argument ('--output') 


return parser 


class YoutubeClient (object) : 
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# 与 前 面 的 代码 段 定义 的 相同 


2 name == '_ main 
parser = get_parser() 
args = parser.parse_args() 





api_key = os.environ.get ('GOOGLE API_KEY') 


youtube = YoutubeClient (api_key) 
Vvideos = youtube.search video(largs.query, args.n) 


with open(args.output, 'w') as f: 
for video in videos: 
f.write(json.dumps (video)+"\n") 


可 以 用 以 下 方式 调用 以 上 脚本 。 


$ python youtube search video pagination.py \ 
--query python \ 
--n 50 \ 
--output videos.jsonl 


执行 以 上 命令 将 生成 videos.jsonl 文 件 ,包含 50 个 与 查询 python 相关 的 视频 。 该 文件 以 JSON 
Lines 格式 保存 。 


本 节 给 出 了 与 YouTube 数据 API 交互 的 示例 。 该 模式 与 我 们 接触 过 的 Google+ 和 Blogger 非 
常 相似 , 因此 , 一 旦 理解 一 种 Google 服务 的 交互 方法 , 就 可 以 很 容易 地 复制 到 其 他 Google 服务 。 





8.3 挖掘 GitHub 上 的 开源 软件 


GitHub 是 一 个 提供 Git 仓库 的 托管 服务 。 虽 然 其 中 的 私有 仓库 需要 付费 ,但 GitHub 服务 的 
知名 在 于 对 开源 服务 的 托管 。 除了 由 Git 提供 的 源 控制 管理 功能 之 外 ，GitHub 还 提供 了 使 管理 开 
源 项 目 更 加 容易 的 很 多 功能 ( 如 错误 追踪 、 维 基 、 特 征 请 求 等 )。 


源 控 制 管理 软件 
源 控制 系统 (也 称 作 版 本 控制 或 代码 修改 控制 ) 是 软件 管理 中 最 重要 的 工具 之 
9 一 , 它 追 踪 了 软件 在 开发 中 的 演进 过 程 。 这 一 方面 经 常 被 新 手 或 独立 开发 者 所 忽 
































视 ,但 若 以 团队 或 个 人 的 形式 完成 复杂 项 目 , 版 本 控制 至 关 重 要 。 它 的 优点 很 多 ， 
其 中 包括 提供 了 对 不 需要 的 更 改进 行 回 退 的 可 能 ,并 提供 了 与 团队 成 员 高 效 协作 
的 可 能 。Git 最 开始 是 由 Linux 之 父 林 纳 斯 ， 托 瓦 效 开 发 的 ， 是 最 流行 的 版 本 控 
制 工具 。 了 解 版 本 控制 系统 的 基础 对 新 手 开发 者 、 分 析 师 和 研究 人 员 大 有 益处 。 
GitHub 提供 了 通过 一 个 API ( https://developer.github.com/v3/ ) 接 入 其 数据 的 途径 , 使 用 的 是 
在 其 平台 上 注册 应 用 的 常见 机 制 。 只 在 获取 鉴 权 用 户 的 私人 信息 时 才 需 要 鉴 权 应 用 。 
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该 API 有 一 些 严 格 的 频率 限制 。 非 鉴 权 的 请 求 限制 为 60 次 /小 时 ， 这 是 一 个 较 低 的 数值 。 完 
成 鉴 权 后 ， 频 率 限制 将 提升 到 5000 次 /小 时 。 搜 索 API 也 有 自 定义 的 接口 访问 频率 限制 (未 鉴 权 
为 10 次/ 分钟 ， 鉴 权 为 30 次 /分 钟 )。 可 以 通过 以 下 三 种 方式 进行 鉴 权 : 


口 基本 的 用 户 名 /密码 鉴 权 
口 通过 OAuth2 今 牌 
口 通过 OAuth2 客户 端 ID 和 客户 端 密码 


最 基本 的 鉴 权 需 要 将 实际 的 用 户 名 和 密码 传 到 API 端 点 。 鉴 权 是 通过 OAuth2 令 牌 完成 的 ， 
也 就 是 说 ， 它 需要 以 程序 的 方式 获取 该 令 牌 ， 然 后 通过 头 文件 或 URL 参数 发 送 给 API 端点 。 最 
后 的 选项 是 将 客户 端 ID 和 客户 端 密码 传递 给 API。 注 册 GitHub 平台 的 应 用 时 可 以 获得 这 些 细节 。 
图 8-2 展示 了 创建 新 应 用 的 注册 界面 。 










































































Authorized applications Developer applications 


Register a new OAuth application 


Application name 

Mastering Social Media Mining with Python 
Something users will recognize and trust 
Homepage URL 

http://localhost:5000 
The full URL to your application homepage 
Application description 


Testing the GitHub API 


EA 
This is displayed to all potential users of your application 


Authorization callback URL 


http://localhost:5000 


Your application's callback URL. Read our OAuth documentation for more information. 





























图 8-2 在 GitHub 上 注册 一 个 新 的 应 用 








注册 好 应 用 后 ， 可 以 将 凭证 保存 为 环境 变量 。 


$ export GITHUB CLIENT ID="your-client-id" 
$ export GITHUB CLIENT SECRET="your-client-secret" 
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配置 好 以 上 步骤 后 ， 就 可 以 开始 与 GitHub API 交互 了 。Python 提供 了 多 个 客户 端 ， 这 些 库 
都 是 第 三 方 的 ， 并 不 是 GitHub 官方 支持 的 。 本 节选 择 的 是 PyGithub， 但 如 果 感 兴趣 ， 你 也 可 以 
选择 其 他 库 进 行 尝试 。 


用 以 下 命令 将 该 库 安装 到 虚拟 环境 中 。 
$ pip install PyGithub 
以 下 脚本 的 作用 是 查找 特定 的 用 户 名 ， 以 获得 用 户 的 基本 信息 及 其 GitHub 仓库 。 


# Chap08/github get_user.py 

import os 

from argparse import ArgumentParser 

from github import Github 

from github.GithubException import UnknownObjectException 





















































def get_parser (): 
parser = ArgumentParser() 
parser.add argument ('--user') 
parser.add_argument ('--get-repos', action='store true', 
default=False) 
return parser 


生计 name = ad 
parser = get_parser() 
args = parser.parse_args() 
client_id = os.environ['GITHUB_CLIENT_ID'] 
client_secret = os.environ['GITHUB_CLIENT_ SECRET'] 





g = Githubl(client_id=client_id, client_ secret=client_secret) 


区 
user g.get_user(args.user) 
print ("Username: {}".format (args.user)) 


( 
print ("Full] name: {}".format (user.name)) 
print ("Location: {}".format (user.1location)) 
print ("Number of repos: {}".format (user.public_ repos)) 
if args.get_repos: 
repos = user.get_repos() 
for repo in repos: 
print ("Repo: {} ({} stars)".format (repo.name, 
repo.stargazers_count)) 
except UnknownObjectException: 
print ("User not found") 


该 脚本 用 ArgumentParser 从 命令 行 获取 参数 : --user 用 于 传递 待 搜索 的 用 户 名 ， 可 选 
参数 --get -repos 是 一 个 布尔 标记 ， 表 明 我 们 是 否 希 望 在 输出 中 包括 用 户 仓库 的 列表 (为 简便 
起 见 ， 这 里 没有 涉及 翻 页 的 情况 )。 


可 以 用 以 下 命令 执行 上 述 脚本 。 























$ python github get user.py --user bonzanini --get-repos 
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以 上 命令 会 产生 以 下 输出 。 


Username: bonzanini 
Full name: Marco Bonzanini 
Location: London, UK 


Number of repos: 9 
Repo: bonzanini.github.io (1 stars) 
Repo: 


Book-SocialMediaMiningPython (3 stars) 





Github.get_user () 函数 假设 我 们 已 经 知道 了 要 寻找 的 用 户 名 称 。 





用 户 对 象 的 一 些 有 趣 属性 如 表 8-1 所 示 。 



























































表 8-1 用 户 对 象 的 属性 

属性 名 称 描 述 
avatar_url 头像 的 URL 
bio 用 户 的 简短 介绍 
blog 用 户 的 博客 
company 用 户 的 公 记 
created_at 资料 的 创建 时 间 
email 用 户 的 电子 邮件 
followers 用 户 的 粉丝 数量 
followers_url 用 户 粉 丝 列表 的 URL 
following 用 户 关 注 的 资料 数量 
following_url 用 户 关 注 的 资料 列表 的 URL 
location 用 户 的 地 理 位 置 
login 登录 名 
name 全 名 
public_ repos 公开 仓库 的 数量 
public gists 公开 gist 的 数量 
repos_url 检索 仓库 的 URL 

















用 准确 的 用 户 名 检索 用 户 资料 后 ， 我 们 来 看 看 如 何 检索 用 户 。GitHub API 通过 Githup. 








search_users () 函数 提供 了 端点 ,该 函数 允许 我 1 
实现 了 搜索 。 


# Chap08/github_search user.py 

import os 

from argparse import ArgumentParser 
from argparse import ArgumentTypeError 
from github import Github 


def get_ parser(): 











门 指定 查询 语句 、 排 序 和 顺序 参数 。 以 下 脚本 
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parser = ArgumentParser() 

parser.add_argument ('--query') 

parser.add argument ('--sort', 
default='followers' 
type=check_sort_value) 
parser.add_ argument ('--order' 

default='desc'! 
type=check_order_value) 
parser.adqd argument ('--n', default=5, type=int) 
return parser 





def check_sort_value (value): 


valiqd_ sort_values = ['followers', 'joined', 'repositories'] 
if value not in valiqd_ sort_ values: 
raise ArgumentTypeError('"{}" is an invalid value for 
"sort"'.format (value)) 


return value 


def check_order_value (value): 


valid_order_values = ['asc', 'desc'] 
if value not in valid order values: 
raise ArgumentTypeError('"{}" is an invalid value for 
"order"'.format (value)) 


return value 


生生 name == '_ main _': 
parser = get_parser() 
args = parser.parse_args() 
client_id = os.environ['GITHUB_CLIENT_ID'] 
client_ secret = os.environ['GITHUB_CLIENT_ SECRET'] 





g = Githubl(client_ id=client_id, client_ secret=client_secret) 


users = g.search users(args.query, 
sort=args.sort, 
order=args.order) 
for i, u in enumerate(users[:args.n]): 
print("{}) {} ({}) with {} repos ".format (i+1, u.login, 
u.name, u.public_repos)) 


该 脚本 用 ArgumentParser 从 命令 行 解析 参数 。 可 以 通过 --query 选项 传递 搜索 语句 。 
API 还 接受 两 个 可 选 参数 来 | 顺序 。 这 两 个 值 分 别 用 --sort 参数 和 - -oraqer 参数 








. 


示 ， 只 接受 特定 的 值 ， 因 此 我 们 必须 分 别 为 这 两 个 参数 指定 类 型 。 更 准确 地 说 ，check_sort_ 
value() 和 check_ordqer_value() 辅 助 本 数 实现 了 以 下 逻辑 : 如 果 给 出 的 是 一 个 合法 值 , 它 会 











被 传递 给 API， 否 则 ArgumentTypeError 会 抛 出 异常 。 最 后 ，ArgumentParser 还 接受 一 人 
--n 参数 ， 以 指定 期 望 的 结果 数量 ( 默认 为 5 )。 


可 以 用 以 下 命令 运行 上 述 脚本 。 








$ python github search_ user.py \ 
--query [your query here] \ 


个 
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--sort followers \ 
--order desc 


输出 是 5 个 (默认 值 ) 最 受 欢迎 用 户 的 列表 ， 即 粉丝 数量 最 多 的 用 户 。 
有 个 类 似 的 脚本 可 用 于 搜索 受 欢迎 的 仓库 。 具 体 实现 如 下 所 示 。 


# Chap08/github_search repos.py 

import os 

from argparse import ArgumentParseL 
from argparse import ArgumentTypeError 
from github import Github 

















def get_parser(): 

parser = ArgumentParser () 

parser.add _ argument ('--query') 

parser.add argument ('--sort', 
default='stars', 
type=check_sort_value) 
parser.add _ argument ('--order', 
default='desc', 
type=check_order_value) 
parser.add argument ('--n', default=5, type=int) 
return parser 





def check_sort_value(value) : 


Validq_sort_Vvalues = ['stars', 'forks', 'updated'] 
if value not in valiqd_ sort_ values: 
raise ArgumentTypeError('"{}" is an invalid value for 
"sort"'.format (value)) 


return value 


def check_order_ value (value): 


valid_order_values = ['asc', 'desc'] 
if value not in valid_ order values: 
raise ArgumentTypeError('"{}" is an invalid value for 
"order"'.format (value)) 


return value 


if marme SS "ne 
parser = get_parser() 
args = parser.parse_args() 
client_id = os.environ['GITHUB_ CLIENT_ID'] 
client_secret = os.environ['GITHUB_CLIENT_ SECRET'] 





g = Github(client_ id=client_id, client_secret=client_secret) 


repos = g.search repositories(args.query, 
sort=args.sort, 
order=args .order) 
for i, r in enumerate(repos[:args.n]): 





print("{}) {} by {} ({} stars) Fullname: {}".format (i+1l, r.name, r.owner.name, 


r.stargazers_count, r.full_ name)) 


上 述 github_search_repos .py 脚本 与 前 面 的 代码 很 相似 ,并 且 也 使 用 了 带 有 --sort 和 
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--order 参数 的 ArgumentParser。 为 了 搜索 仓库 ,这 里 使 用 了 Github.search repositories() 
方法 ,该 方法 以 一 个 查询 语句 和 一 些 关键 字 参 数 作为 输入 。 


用 以 下 命令 运行 上 述 脚 本 。 








$ python github search repos.py \ 
--query python \ 
--sort stars \ 
--order desc 


用 python 查询 语句 得 到 了 一 些 有 趣 的 结 


1) oh-my-zsh by Robby Russell (36163 stars) 

2) jQuery-File-Upload by Sebastian Tschan (23381 stars) 
3) awesome-python by Vinta (20093 stars) 

4) requests by Kenneth Reitz (18616 stars) 

5) scrapy by Scrapy project (13652 stars) 


虽然 以 上 列表 中 出 现 了 一 些 流行 的 Python 库 (如 requests 和 Scrapy )， 但 列表 的 前 两 个 结 
果 似 乎 与 Python 没有 关系 。 这 是 因为 调用 搜索 API 时 默认 搜索 标题 /描述 字段 ， 所 以 该 查询 会 得 
到 一 些 只 在 描述 中 提 到 了 python 的 结果 ， 但 实际 上 不 是 用 Python 实现 的 。 


我 们 可 以 重 构 搜 索 以 获得 特定 语言 实现 的 仓库 。 在 上 面 的 代码 中 , 我 们 只 需要 用 language 
量化 器 修改 cithub. search_repositories() 的 调用 ， 如 下 所 示 。 














repos = g.search_ repositories("language:{}".format (args.query), 
sort=args.sort, 
order=args.order) 


对 查询 进行 小 改动 后 ， 结 果 如 下 所 示 。 








1) httpie by Jakub RoztoAil (22130 stars) 

2) awesome-python by Vinta (20093 stars) 

3) thef*** by Vladimir Iakovlev (19868 stars) 
4) flask by The Pallets Projects (19824 stars) 
5) django by Django (19044 stars) 


此 时 得 到 的 所 有 结果 基本 上 都 是 由 Python 实现 的 项 目 。 
表 8-2 总 结 了 仓库 对 象 的 主要 属性 。 


表 8-2 仓库 对 象 的 属性 


属性 名 称 描述 
现在 URL 中 的 仓库 名 称 

库 的 完整 名 称 ( 即 user_name/repo_name ) 
示 拥 有 项 目的 用 户 对 象 

库 的 数值 ID 

















name 





他 正 


full_name 
































Owner 














他 这 


id 
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( 续 ) 
属性 名 称 描 述 
stargazers_count 获得 的 星星 数量 
description 仓库 的 文本 描述 
created at 创建 时 间 的 aatetime 对 象 
updated_at 最 近 更 新 时 间 的 aatetime 对 象 
open_issues_count 开放 问题 的 数量 
language 仓库 的 主要 语言 
languages_url 检索 其 他 语言 信息 的 URL 
homepage 项 目 主页 的 URL 























还 有 关于 特定 仓库 的 很 多 属性 和 细节 。API 的 文档 ( https://developer.github.com/v3/repos/ ) 
提供 了 具体 的 描述 。 


本 节 展 示 了 从 GitHub API 检 索 数据 的 示例 。 潜 在 的 应 用 包括 分 析 并 发 现 最 常用 的 编程 语言 ， 
如 哪 一 种 语言 的 项 目 最 多 、 哪 一 种 语言 的 项 目 最 活跃 、 哪 一 种 语言 的 项 目 在 某 时 间 段 的 开放 问题 
最 多 等 。 














8.4 挖掘 Yelp 上 的 本 地 商家 


Yelp 是 一 个 在 线 服务 ， 用 于 托管 本 地 商家 众 包 点 评 "， 比 如 酒吧 和 餐馆。 它 的 月 活跃 用 户 数 
为 135 000 000， 内 容 主要 由 社区 驱动 。 


Yelp 提供 了 三 个 API 来 搜索 本 地 商家 数据 并 与 之 交互 。 这 三 个 API 按 照 目 的 进行 分 组 。 搜 索 
API 是 基于 关键 词 的 搜索 的 接 入 点 。 商 家 API 用 于 查找 关于 特定 商家 的 信息 。 电 话 搜索 API 用 于 
通过 电话 号 码 查找 商家 。 


Yelp API 的 接口 访问 频率 限制 为 每 日 25 000 次 。 
本 节 描 述 了 建立 应 用 并 用 特定 关键 词 搜索 Yelp 数据 库 的 一 些 基 本 步骤 。 


API 的 接 和 人 由 令 牌 保护 。 在 Yelp 注册 账号 后 , 接 人 任何 API 的 第 一 步 都 是 在 开发 者 网 站 获得 
令 牌 。 图 8-3 显示 了 接 入 API 需 要 填写 的 信息 。 在 这 个 示例 中 ，Your website URL 字段 指向 本 地 
主机 。 



































QD 类 似 于 大 众 点 评 网 。 一 一 译 者 注 
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Complete the following form to gain access to the Yelp API， 
Your website URL: 
http://127.0.0.1:5000 


How you will use the API: 





Testing Yelp API capabilities| 


| 





Industry: 
Other 


4p 


Publishing 











图 8-3 接 入 Yelp API 


完成 第 一 步 后 , 我 们 将 获得 四 个 接 入 键 。 应 该 将 这 些 字符 串 保 护 起 来 并 永 不 共享 。 接 入 键 也 
称 为 客户 键 、 客 户 密码 、 令 牌 和 令 牌 密码 。 这 些 字符 串 用 于 调用 API 之 前 的 OAuth 鉴 权 过 程 。 


按照 本 书 惯例 ， 我 们 将 这 些 配置 保存 在 环境 变量 


export YELP_ CONSUMER KEY="your-consumer-key" 
export YELP_ CONSUMER SECRET="your-consumer-secret" 
export YELP_ TOKEN="your-token" 

$ export YELP_ TOKEN SECRET="your-token-secret" 


为 了 以 程序 的 方式 接 入 API, 我 们 需要 安装 官方 的 Python 客户 端 。 用 以 下 命令 将 其 安装 到 虚 
拟 环境 中 。 








An An 





$ pip install yelp 


以 下 脚本 yelp_client .py 定义 了 一 个 函数 ， 我 们 会 用 该 函数 创建 对 API 的 调用 。 


# Chap08/yelp_client .py 

import os 

from yelp.client import Client 

from yelp.oauth1_ authenticator import OauthlAuthenticator 





def get_yelp_client (): 
auth = OauthlAuthenticator!( 
consumer_key=os.environ['YELP_ CONSUMER_KEY'], 
consumer_secret=os.environ['YELP_ CONSUMER_SECRET'], 
token=os.environ['YELP_TOKEN'], 
token_ secret=os.environ['YELP_ TOKEN_SECRET'] 
) 


client = Client (auth) 
return client 


一 切 准备 就 绪 后 ， 就 可 以 开始 搜索 本 地 商家 了 。yelp_search_pbusiness.py 通过 提供 的 
地 点 和 关键 词 搜索 API。 
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# Chap08/yelp_search business.py 
from argparse import ArgumentParser 
from yelp_client import get yelp_client 


def get_parser(): 
parser = ArgumentParser() 
parser.add_argument ('--location') 
parser.add _ argument ('--search') 
parser.add argument ('--language', default='en') 
parser.add argument ('--limit', default=20) 
parser.add argument ('--sort', default=2) 
return parser 


( 
( 
( 
( 


if marme 三 三 Maln 
client = get_yelp_client() 
parser = get_parser() 
args = parser.parse_args() 





params = { 
'term': args.search, 
"1ang': args.language, 
Tmit ue rds Limtit.; 
sort': args.sort 


response = client.search(args.location, **params) 
for business in response.businesses: 
address = ', '.join(business.location.address) 
categories = ', '.join([cat[0] for cat in 
business.categories]) 
print ("{} id={} ({}, {}); rated {}; categories {}".format (business.name, 
business.id, address, business.location.postal_code, 
business.rating, categories)) 


ArgumentParser 对 象 用 于 解析 来 自命 令 行 的 参数 。 ee J: --location 
和 --search， 前 者 是 城市 或 本 地 商 圈 的 名 字 ， 后 者 允许 我 们 为 某 个 搜索 传递 特定 的 参数 。 可 选 
参数 --1anguage 用 于 指明 输出 的 期 望 语 言 ( 特别 是 对 于 评论 )， es 代码 ( 例 
如 ， 英 语 是 en、 法 语 是 Er、 德语 是 ae 等 )。 我 们 还 提供 了 另外 两 个 可 选 参数 : --1imit 是 我 
们 期 望 的 结果 数量 ( 默认 为 20 )，--sort 则 定义 了 结 吉 果 排序 的 方式 (0 表示 最 佳 匹配 、1 表示 按 
距离 排序 、2 表示 按 星 级 排序 )。 


在 脚本 的 主要 部 分 ,我 们 创建 了 Yelp 客户 端 和 解析 器 。 然 后 定义 了 一 个 传递 给 Yelp 客户 端 
的 参数 字典 。 这 些 参 数 包括 通过 命令 行 定义 的 参数 。 


可 以 用 以 下 命令 调用 脚本 。 


$ Python Yelp_search_business.py \ 
--location London \ 
--Search breakfast \ 
--limit 5 
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输出 结果 是 打印 到 控制 台 的 本 地 商家 (这 里 是 5 家 ) 列表 。 


Friends of Ours (61 Pitfield Street, N1 6BU); rated 4.5; categories Cafes, 
Breakfast & Brunch, Coffee & Tea 

Maison D'étre (154 Canonbury Road, N1 2UP); rated 4.5; categories Coffee & 

Tea, Breakfast & Brunch 

Dishoom (5 Stable Street, N1C 4AB); rated 4.5; categories Indian, Breakfast 

& Brunch 

E Pellicci (332 Bethnal Green Road, E2 0AG); rated 4.5; categories Italian, 
Cafes, Breakfast & Brunch 

Alchemy (8 Ludgate Broadway, EC4V 6DU); rated 4.5; categories Coffee & Tea,Cafes 


当 搜 索 多 个 关键 词 时 ， 查 询 必须 用 双 引 号 包 右 起 来 以 便 被 正确 地 解析 ， 如 下 所 示 。 


$ python yelp_ search business.py \ 
--location "San Francisco" \ 
--Search "craft beer" \ 
--limit 5 


API 返回 的 1ocation 对 象 具有 一 些 属性 ， 表 8-3 总 结 了 一 些 最 有 趣 的 属性 。 

















表 8-3 location 对 象 的 属性 



































































































































属性 名 称 描述 
id 商家 的 标识 符 
name 商家 的 名 称 
image_url 商家 照片 的 URL 
is_claimed 布尔 属性 值 ， 表 示 商 家 是 否认 领 了 该 页 画 
is_closed 布尔 属性 值 ， 表 示 该 商家 是 否 永 久 关闭 
url 商家 的 Yelp URL 
mobile_ url 商家 的 Yelp 移动 端 URL 
phone 国际 格式 的 电话 号 码 字符 串 
display_phone 寺 于 显示 的 电话 号 码 字符 串 
categories 与 商家 相关 的 类 别 列表 。 每 个 类 别 是 一 个 元 组 (display_name, filter_name)， 
这 里 的 第 一 个 名 字 用 于 显示 ， 第 二 个 名 字 用 于 过 滤 查 询 
review_count 有 关 商 家 的 评论 数量 
rating 有 关 商 家 的 评分 (如 1、1.5……… 4.5、5) 
snippet_text 商家 的 简短 描述 
snippet_image_url 与 商家 相关 的 图 像 的 URL 
location 与 商家 相关 的 location 对 象 








location 对 象 提供 了 以 下 属性 。 


口 address (List) 只 包含 地 址 字段 
口 display_address (List) 是 用 于 显示 的 格式 ， 包 括 交 叉 路 口 、 城 市 、 州 代码 等 
Dcity (string) 
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口 state_code (string) 是 ISO 3166-2 格式 的 州 代码 

口 bostal_codqe (string) 

口 country_code (string) 是 ISO 3166-1 格式 的 国家 代码 
口 cross_streets (sttring) 是 商家 的 交叉 路 口 

口 neighborhoods (list) 是 商家 的 周边 信息 


DQ coordinates.latitude (number) 

















DQ coordinates.longitude (number) 


除了 搜索 API，Yelp 还 提供 了 一 个 商家 API 来 专门 检索 特定 商家 的 信息 。 该 API 假 设 你 已 经 
具有 商家 的 特定 ID。 


以 下 脚本 展示 了 如 何 用 Python 客户 端 接 入 商家 API。 





# Chap08/yelp_get_business.py 
from argparse import ArgumentParser 
from yelp_client import get_ yelp_client 


def get_parser(): 
parser = ArgumentParser () 
parser.add_argument ('--id') 
parser.add argument ('--language', default='en') 
return parser 


主 直 marme sie 
client = get_ yelp_client() 
parser = get_parser() 
args = parser.parse_args() 





params = { 
'Jang': args.language 


} 


response = client.get_ business(args.id, **params) 
business = response.business 
print ("Review count: {}".format (business.review_ count)) 
for review in business.reviews: 
print("{} (by {})".format (review.excerpt, review.user.name)) 


商家 API 的 一 个 主要 限制 是 , 并 不 是 完全 提供 给 定 商家 的 评论 列表 , 它 实际 上 只 提供 一 个 评 
论 。 这 单个 评论 是 商家 API 提供 而 搜索 API 没有 展示 的 唯一 信息 ， 因 此 ， 商 家 API 并 不 能 提供 
太 多 数据 挖掘 空间 。 


意思 的 是 ，Yelp 提供 了 一 个 随 着 时 间 不 断 更 新 和 丰富 的 数据 集 ， 主 要 用 于 学 术 研 究 。 该 数 
据 集 包含 商家 、 用 户 、 评论、 图 片 和 用 户 间 的 连接 等 细节 信息 。 该 数据 集 可 以 用 于 自然 语言 处 理 、 
图 挖 据 和 一 般 的 机 带 学 习 。 该 数据 集 的 数据 控 气 挑战 对 学 生来 说 是 技术 能 力 的 证 明 。 
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8.5 创建 自 定义 的 Python 客户 端 
本 书 通过 Python 库 接 入 了 不 同 的 社会 媒体 平台 ， 这 些 库 要 么 是 社会 媒体 官方 支持 的 ， 要 么 
是 第 三 方 提 供 的 。 


本 节 将 回答 以 下 问题 ， 如果 社会 媒体 平台 不 提供 Python 客户 端 及 相应 API ( 也 没有 非 官 方 
库 )， 那么 该 怎么 办 ? 








BY 















































HTTP 让 事情 变 得 简单 


为 了 实现 对 特定 API 的 调用 , 我 们 推荐 的 HTTP 交互 库 是 requests。 可 以 用 以 下 命令 将 其 安 
装 到 虚拟 环境 中 。 








$ pip install requests 

requests 库 提供 了 非常 直接 的 接口 来 执行 HTTP 调 用 ,为 了 测试 该 库 , 我 们 将 为 httpbin.org 
服务 实现 一 个 简单 的 客户 端 ,httpbin.org 服务 是 一 个 Web 服务 ,提供 了 基本 的 请 求 /响应 交互 ， 
能 够 满足 我 们 的 学 习 目 的 。 

httpbin.org 的 页 面 (http:/httpbin.org/ ) 解释 了 各 种 端点 及 含义 。 为 了 演示 requests 库 ， 
我 们 将 实现 一 个 HttpBinclient 类 ， 其 中 包含 一 些 基 本 端点 的 调用 方法 。 





























class HttpBinClient (object) : 
失言 总 全 天 三 二 二 YE 


def get_ip(self) : 
response = frequests.get("{)})V/ip" .format(self.base_url)) 
my_ip = response.json()['origin'] 
return my_ip 


def get_ user agent (self): 
response = requests.get ("{}/user-agent".format (self.base url)) 
user_agent = response.json()['user-agent'] 
return user_agent 


def get_headers (self): 
response = requests.get("{}/headers".format (self.base_ url)) 
headers = HeadersModel (response.json()) 
return headers 


该 客户 端 有 一 个 pase_url 类 变量 , 用 于 存储 待 调 用 的 基本 URL。 get_ip()、get_user_ 
agent () 和 get_headers () 方 法 的 实现 分 别 调 用 了 /ip、/user-agent 和 /headers 端点 , 使 
用 base_url 变量 构建 了 完整 的 URL。 


与 requests 库 的 交互 和 这 三 个 方法 非常 相似 .用 requests .get () 调用 端点 , 它 将 发 送 HTTP 
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GET 请 求 至 端点 并 返回 一 个 响应 对 象 。 该 对 象 有 一 些 属 性 ， 如 status_code (存储 响应 代码 ) 


Ws text (存储 原始 的 响应 数据 )， 以 及 json () 方 法 。 我 们 将 用 json () 方 法 将 JSON 响应 导入 
字典 


子 六 。 








IP 和 用 户 代 理 都 是 简单 的 字符 串 ,， 不 过头 文件 对 象 稍微 复杂 一 些 ,包含 几 个 属性 。 因 此 ,， 响 
应 结果 被 包 进 一 个 自 定 义 的 HeadersModel 对 象 中 ， 定 义 如 下 所 示 。 











class HeadersModel (object): 


def. init (Self “datay)'s 
self.host = datal[l'headers']['Host'] 
self.user_agent = datal'headers']['User-Agent'] 
self.accept = datal'headers']['Accept'] 


如 果 将 前 面 的 类 存 人 名 为 httpbin_client.py 的 文件 中 ,我 们 可 以 使 用 自 定 义 的 客户 端 ， 如 下 
所 示 。 








>>> from httpbin client import HttpBinCclient 
>>> client = HttpBinClient() 

>>> print (client.get user agent()) 
python-requests/2.8.1 

>>> h = client.get headers() 

>>> print(h.host) 

httpbin.org 


为 了 Web API 的 简洁 性 , 我 们 并 没有 在 这 个 简单 的 任务 中 加 入 更 复杂 的 应 用 层 来 误导 你 。 实 
际 上 ， 可 以 用 requests 库 从 我 们 的 应 用 直接 与 Web API 交 互 。 一 方面 ， 这 种 简单 的 交互 对 本 例 来 
说 可 以 达到 目的 ,但 另 一 方面 ,社会 媒体 API 在 本 质 上 非常 具有 动态 性 。 新 的 端点 会 被 加 上 ， 响 
应 格式 会 改变 , 新 的 特征 会 不 断 被 开发 出 来 。 例 如, 第 4 章 的 草稿 刚刚 完成 时 ，Facebook 就 引入 
了 新 的 交互 特征 ， 这 也 导致 了 其 API 响应 的 变化 。 


换 句 话说 ， 自 定义 的 Python 客户 端 加 了 一 层 抽 象 ， 允 许 我 们 只 关注 客户 端的 接口 ， 而 不 是 














Web API。 用 的 角度 来 看 ， 我 们 将 关注 客户 端 方 法 的 调用 ， 如 HttpBinClient.get_ 


headers () , 并 隐藏 /headers 端点 在 此 类 方法 中 发 送 响应 的 细节 。 如 果 来 自 Web API 的 响应 格 
RR 我 们 需要 做 的 就 是 更 新 客户 端 并 反映 新 的 改变 , 但 与 Web API 交互 的 所 有 应 用 
不 会 受到 影响 ， 这 多 亏 了 这 层 额 外 的 抽象 。 


httpbin.org 服务 其 实 并 不 复杂 , 因此 一 个 社会 媒体 API 的 实现 不 会 很 直接 , 但 总 的 来 说 ， 
核心 要 义 是 : 用 抽象 层 隐藏 实现 细节 。 这 也 是 我 们 迄今 使 用 的 所 有 Python 客户 端的 做 法 。 
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HTTP 状态 码 


为 了 更 广泛 地 理解 HTTP 交互 的 工作 方式 ， 我 们 必须 介绍 响应 状态 码 的 重要 性 。 
来 自 HTTP 服务 器 的 请 求 在 底层 都 是 由 数值 状态 码 打 开 的 ,后 面 跟着 描述 该 状态 


码 的 原因 短语 。 例 如 , 将 浏览 器 指向 特定 的 URL 


时 , Web 服务 器 会 用 状态 码 200 


回应 ， 并 跟 上 原因 短语 OK。 然 后 该 响应 呈现 我 们 请 求 的 网 页 ， 并 展示 在 浏览 器 
中 。Web 服务 器 还 能 以 状态 码 404 响应 ， 并 跟 上 原因 短语 Not Found。 浏 览 器 





会 理解 该 请 求 并 向 用 户 返 回合 适 的 错误 消息 。 


人 Web API 与 前 面 介 绍 的 简短 交互 没什么 不 同 。 根据 不 同 的 请 求 ， 服务器 
个 成 功 响应 ( 状态 码 2xx ) 或 一 个 错误 ( 客户 端 错误 码 为 4xx， 服务 器 


器 


发 送 一 


年 
潜 误 码 为 


5xx )。 客 户 端 实现 应 该 可 以 正确 地 翻译 Web API 提 供 的 状态 码 ， 并 进行 相应 的 
行动 。 还 需要 注意 的 是 ， 有 些 服务 采用 的 是 非 标准 的 状态 码 。 例如，Twitter 的 
错误 状态 码 是 420，Enhance your calm， 在 客户 端 发 送 过 多 请 求 、 超 过 接 入 





次 数 时 使 用 。 


状态 码 的 完整 列表 及 其 含义 参见 https://www.wikiwand.com/en/List_of HTTP 


status_codes， 官 方 文档 包含 在 RFC 文档 中 。 





有 了 开源 库 以 后 , 很 少 需 要 从 头 实现 一 个 客户 端 。 到 目前 为 止 , 你 应 该 具备 了 着 手 实现 客户 


端的 能 


8.6 小 结 








本 章 讨论 了 从 社会 媒体 挖掘 数据 的 更 多 选择 。 除 了 常用 的 流行 社交 网 络 ,如 Twitter、Facebook 





和 Google+， 很 多 其 他 平台 也 提供 了 接 入 数据 的 API。 


当 特 定 平台 没有 可 用 的 Python 客户 端 时 ， 我 们 可 以 实现 自 定义 的 客户 端 ， 并 利用 requests 











库 的 简洁 性 。 实现 自 定义 客户 端 刚 开始 看 起 来 可 能 增加 了 一 些 不 必要 的 复杂 性 , 但 它 提供 了 一 个 





重要 的 抽象 屋 ， 从 长 期 来 看 是 值得 设计 的 。 


的 数据 包括 YouTube 的 视频 、GitHub 的 开源 项 目 ， 以 及 Yelp 





除了 自 定义 客户 端的 实现 , 我 们 还 介绍 了 用 于 挖掘 复杂 对 象 的 其 他 一 些 流行 服务 。 我 们 检索 


的 本 地 商家 如 餐馆 )。 




















本 书 未 介绍 的 社会 媒体 平台 还 有 很 多 , 因为 详尽 的 介绍 是 不 现实 的 , 但 是 我 希望 你 能 意识 到 


还 有 很 多 可 能 


下 一 章 是 本 书 的 最 后 一 章 。 它 介绍 了 语义 网 , 并 为 你 理解 语义 标注 数据 的 重要 性 提供 了 概览 。 








关联 数据 和 语义 网 











本 章 综述 了 语义 网 和 相关 技术 。 我 们 将 介绍 以 下 主题 : 


口 讨论 作为 数据 网 的 语义 网 的 基础 
口 讨论 微 格 式 、 链 接 数据 和 RDF 
口 从 DBpedia 挖掘 语义 关系 

口 在 Google Maps 上 绘制 地 理 信 息 








9.1 数据 网 


万 维 网 联盟 ( World Wide Web Consortium，W3C ) 是 一 个 国际 组 织 ， 它 发 布 了 Web 标准 并 
给 出 了 语义 网 的 定义 。 


“语义 网 就 是 数据 网 。 


语义 网 及 其 定义 都 是 由 Web 之 父 蒂 姆 ， 伯 纳 斯 - 李 需 士 创造 的 ， 他 同时 也 是 W3C 的 理事 。 
当 谈 到 自己 的 伟大 发 明 时 ， 他 总 是 强调 Web 的 社会 影响 ， 以 及 它 为 何 更 偏向 一 个 社会 创造 而 非 
技术 创造 ( 出 自 带 姆 . 伯 纳 斯 - 李 的 《编织 万 维 网 》 一 书 )。 


如 果 简 要 分 析 Web 的 演进 ，Web 作为 一 个 平台 的 前 景 就 变 得 更 加 明确 了 。21 世纪 头 10 年 流 
行 起 来 的 一 个 关键 词 是 Web 2.0， 它 是 在 20 世纪 90 年 代 末 期 创造 出 来 的 ， 后 来 由 蒂 姆 . 奥 莱 利 
传播 开 来 。Web 2.0 意味 着 它 是 Web 的 一 个 新 版 本 ,但 是 它 并 不 关注 规格 的 技术 性 更 新 和 变化 ， 
而 是 关注 从 旧 的 静态 Web 1.0 到 以 用 户 为 中 心理 解 Web 并 提供 丰富 用 户 体验 的 演进 。 


从 Web 1.0 到 Web 2.0 的 演进 可 以 用 一 个 词 概 括 一 一 合作 。 蒂 姆 : 伯 纳 斯 - 李 并 不 认可 这 一 点 ， 
因为 Web 2.0 用 到 的 技术 和 标准 与 旧 的 Web 1.0 时 代 相 同 。 此 外 ， 用 户 的 连接 和 协作 始终 是 Web 
的 主题 。 尽 管 有 不 同意 见 ， 但 Web 2.0 这 个 术语 已 经 成 为 我 们 词汇 的 一 部 分 ， 而 且 经 常 与 社会 网 
( social web， 有 时 也 用 Web 2. 和 表示 ) 这 个 名 词 同时 出 现 。 


那么 应 该 将 语义 网 放 在 哪个 位 置 呢 ? 根据 Web 创造 者 的 观点 ， 这 应 该 是 演进 的 下 一 步 ， 即 9 
Web 3.0。 
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Web 的 自然 演进 是 成 为 一 个 数据 网 。 这 个 过 程 中 至 关 重 要 的 是 数据 模型 和 数据 表示 , 它们 要 
允许 以 机 器 理解 的 方式 分 享 知识 。 通 过 使 用 以 一 致 的 语义 格式 分 享 的 数据 , 机 器 可 以 支持 用 户 的 
复杂 信息 需求 和 决策 需求 。 


Web 中 主流 的 文档 格式 是 HIML。 这 种 格式 是 一 种 标记 惯例 , 用 于 描述 包含 文本 、 多 媒体 对 
象 (如 图 像 或 视频 ) 以 及 文档 间 链 接 的 文档 的 结构 。 


HTML 人 允许 内 容 管理 者 在 文档 的 头 部 指定 一 些 元 数据 。 这 些 信息 不 是 用 来 展示 的 , 因为 浏览 
器 通常 只 显示 文档 的 正文 。 元 数据 标签 包括 作者 的 名 字 、 版 权 信 息 、 文 档 简 介 ， 以 及 描述 文档 
的 关键 词 。 计 算 机 可 以 翻译 所 有 这 些 细节 来 分 类 文档 。 不 过 HTML 的 缺憾 是 不 能 指定 更 复杂 的 
信息 。 

例如 ,通过 使 用 HTML 元 数据 , 我 们 可 以 描述 一 个 文档 是 关于 Woody Allen 的 , 但 是 该 语言 
并 不 支持 对 复杂 概念 进行 消 歧 ， 比 如 ， 该 文档 是 关于 Woody Allen 在 电影 中 饰演 的 角色 、 关 于 
Woody Allen 拍摄 的 电影 ， 还 是 其 他 人 导演 的 关于 Woody Allen 的 电影 ? 因为 HTML 的 目的 是 描 
述 文档 的 结构 ， 所 以 它 可 能 不 是 表示 这 种 知识 粒度 的 最 佳 方 式 。 

男 一 方面 , 语义 网 技术 允许 我 们 进一步 用 实体 、 实 体 的 属性 以 及 实体 间 的 关系 来 描述 这 个 世 
界 。 举 个 例子 ， 可 以 用 表 9-1 来 表示 Allen 的 部 分 电影 作品 。 


表 9-1 Woody Allen 的 电影 


































































































艺 术 家 角 色 电影 

Woody Allen 导演 《曼哈顿 》 
Woody Allen 演员 《曼哈顿 》 
Woody Allen 导演 《 赛 末 点 》 











表 9-1 显示 了 实体 类 型 艺术 家 和 电影 间 的 链接 关系 。 表 示 这 种 结构 化 知识 属于 语义 网 技术 的 
范围 [3 

接 下 来 将 综述 有 关 语 义 网 和 知识 表示 的 概念 和 术语 。 我 们 将 介绍 一 些 可 以 回答 复杂 查询 的 技 
术 ， 如 Woody Allen 示例 中 的 查询 。 





9.1.1 语义 网 词汇 
本 方 主要 介绍 和 回顾 语义 技术 中 常用 的 基本 词汇 。 
标记 语言 (markup language ): 这 是 用 于 标记 文档 的 系统 。 给 定 一 段 文字 或 者 说 一 段 数据 ， 
标记 语言 允许 内 容 管理 者 根据 标记 语言 的 特定 含义 标记 文本 或 数据 块 。 一 个 非常 著名 并 广泛 使 用 
的 标记 语言 就 是 HTML。 标记 语言 既 包 括 展示 性 标记 , 也 包括 描述 性 标记 。 前 者 与 文本 显示 的 方 
式 有 关 ， 后 者 提供 了 对 标记 数据 的 描述 。 在 HTML 的 示例 中 ， 展 示 标 签 和 描述 标签 都 可 以 使 用 。 
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例如 ，<b> 或 <i> 标 签 表 示 样 式 ,， 内 容 设计 者 可 以 用 它们 将 文本 中 特定 的 内 容 显示 成 粗 体 或 斜体 。 
另 一 方面 ，<stzrong> 和 <em> 分 别 表示 文本 的 特定 部 分 应 该 被 增强 或 强调 。 在 普通 的 浏览 器 中 ， 
<b> 和 <stzrong> 通 常 以 粗 体 显示 ， 而 <1> 和 <em> 以 斜体 显示 。 盲 人 用 户 无 法 在 视觉 上 体会 粗 体 
样式 的 好 处 ， 但 将 短语 标记 成 <strong> 可 以 让 屏幕 阅读 器 理解 应 该 如 何 阅读 该 短语 。 


语义 标记 ( semantic markup ): 正如 前 面 介绍 的 ， 呈 现 事物 的 方式 和 理解 事物 的 方式 是 不 同 
的 。 语 义 标记 描述 的 是 所 呈现 信息 的 含义 ， 而 不 是 外 观 。 在 HTML 和 XHTML 中 ， 展 示 性 标记 
标签 并 未 被 明确 弃 用 ， 只 是 并 不 推荐 使 用 。HTMLS5 与 语义 标记 的 概念 更 接近 一 些 ， 在 其 中 引入 
了 一 些 语义 标签 ， 如 <article> 和 <section>。 同 时 ， 展 示 标 签 (如 <b> 和 <i> ) 被 保留 且 具 有 
准确 意义 (也 就 是 说 ， 它 们 用 于 区 别 与 普通 文字 样式 的 不 同 ， 不 传递 任何 重要 性 )。 


本 体 (ontology ): 语义 网 的 标志 性 技术 之 一 就 是 本 体 。 它 表示 特定 领域 的 实体 类 型 、 属 性 和 
关系 。 本 体 的 具体 例子 包括 WordNet 和 SNOMED CT, 前 者 是 一 个 词汇 资源 , 其 中 的 项 根据 含义 
分 成 了 不 同 的 概念 组 ， 而 后 者 是 一 个 医学 词汇 表 。 


维基 百科 显示 了 来 自 WordNet 的 一 小 段 摘 录 。 
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dog, domestic dog, Canis familiaris 
=> canine, canid 
=> carnivore 
=> placental, placental mammal, eutherian, eutherian mammal 
=> mammal 
=> vertebrate, craniate 
=> chordate 
=> animal, animate being, beast, brute, creature, fauna 
莹 共和 入 


以 上 示例 主要 表示 单词 dog 的 含义 。 可 以 看 到 ,为 了 表示 一 段 知 识 , 需要 使 用 很 多 的 层级 来 
展示 细节 : 狗 并 不 简 简 单单 是 一 种 动物 , 还 可 以 根据 其 在 生物 学 上 所 属 的 特定 科 ( 犬 科 ) 或 目 ( 食 
肉 目 ) 进行 分 类 。 


可 以 用 语义 标记 描述 本 体 。 例 如 ， 内 容 管理 者 可 以 使 用 网 络 本 体 语言 ( Web Ontology 
Language，OWL ) 来 表示 知识 。 构 建 本 体 的 挑战 包括 要 表示 的 领域 的 广阔 性 ， 以 及 人 类 知识 和 
自然 语言 作为 知识 传播 媒介 所 固有 的 歧义 和 不 确定 性 。 手动 构建 本 体 需要 深入 理解 领域 知识 。 自 
从 哲学 兴起 以 来 ,知识 的 描述 和 表示 都 一 直 是 人 类 面临 的 基本 问题 之 一 ,因此 , 我 们 可 以 将 语义 
网 本 体 看 作 哲 学 本 体 的 实际 应 用 。 

分 类 法 ( taxonomy ): 比 本 体 的 概念 更 窄 一 些 ， 分 类 法 指 的 是 知识 的 层级 表示 。 换 句 话说， 
它 用 于 组 织 定义 好 的 实体 的 类 ， 类 间 的 关系 用 is a 和 has a 进行 定义 。 本 体 和 分 类 法 的 不 同 之 处 
是 ， 前 者 对 更 大 范围 的 关系 进行 建 模 。 

分 众 分 类 法 〈folksonomy ): 也 叫 作 社会 分 类 法 。 建 立 分 众 分 类 法 就 是 指 进行 社会 化 标注 。 
用 户 可 以 用 特定 的 标签 来 标记 一 段 内 容 ， 而 该 标签 是 用 户 对 一 个 特定 类 别 的 解读 。 该 结果 是 分 类 
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法 的 一 种 民主 化 , 没有 死板 僵化 的 结构 ,能 以 用 户 的 看 法 来 展示 信息 。 分 众 分 类 法 的 缺点 是 在 现 
实 中 不 可 控 且 难以 组 织 。 它 也 可 能 表示 一 种 特定 的 趋势 ， 而 非 对 特定 领域 的 深入 理解 。 


在 社会 媒体 的 环境 中 , 分 众 分 类 法 的 一 个 典型 案例 就 是 Twitter。 用 户 用 话题 标签 来 标记 其 推 
文 属于 哪 一 种 类 型 的 话题 。 这 样 一 来 ,其 他 用 户 可 以 搜索 特定 的 主题 或 关注 特定 的 事件 。 分众 分 
类 法 的 特征 在 Twitter 话题 标签 使 用 上 表现 得 非常 显著 。 这 些 标签 由 推 文 的 发 布 者 选 定 ， 没 有 层 
级 关系 、 没 有 组 织 ， 只 有 那些 看 起 来 有 意义 且 被 大 众 选 择 的 标签 才 会 成 为 趋势 ( 民主 化 )。 





推论 和 推理 ( inference and reasoning ): 在 逻辑 领域 中 ,推论 是 指 从 已 知 (或 假设 ) 的 正确 事 


















































实 推导 出 逻辑 结论 的 过 程 。 男 一 个 类 似 的 术语 是 推理 。 理 解 这 两 个 名 词 的 一 种 方式 是 , 将 推论 看 
作 目 标 ， 推 理 看 作 实现 方法 。 





推论 









































的 经 典 案例 是 苏 格 拉 底 三 段 论 。 我 们 思考 一 下 以 下 事实 ( 这 些 断 言 被 认为 是 真 的 ): 
口 凡人 都 是 会 死 的 





























口 苏 格 拉 底 是 人 


根据 以 上 前 提 , 一 个 推理 系统 应 该 可 以 回答 以 下 问题 : 苏 格 拉 底 会 死 吗 ? 答案 令 人 心 惊 : 是 。 

















三 段 论 的 通用 模式 如 下 所 示 : 





口 每 个 A 都 是 B 
DC 是 和 
口 因此 C 是 B 




















这 里 的 A、B 和 C 可 以 是 类 别 或 个 体 ,三 段 论 是 演绎 推理 的 一 个 经 典 案例 。 通 常 来 说 ,“ 由 …… 
推断 ”“ 推 论 自 ……” 和 “对 …… 进 行 推理 ”都 是 该 语 境 下 的 同义词 ， 因 为 它们 都 需要 从 已 知 的 




















事实 中 产生 新 的 知识 。 





给 定 前 面 关于 苏 格 拉 底 和 其 他 人 的 知识 ,为 了 回答 诸如 柏拉图 会 死 吗 这 样 的 问题 , 我 们 需要 
进一步 学 习 以 下 内 容 。 


闭合 世界 和 开放 世界 假设 (closed-world and open-world assumptions ): 一 个 推理 系统 能 够 包 








括 关 于 宇 














击 的 闭合 世界 假设 或 者 开放 世界 假设 。 这 两 种 假设 的 关键 差别 在 于 ,结论 从 (有限 ) 已 

















知事 实 集合 中 推论 出 来 的 方式 。 在 基于 闭合 世界 假设 的 系统 中 , 每 个 未 知 的 事实 都 是 假 的 ; 而 在 
基于 开放 世界 假设 的 系统 中 , 未 知 的 事实 可 能 为 真 也 可 能 为 假 ， 因 此 不 强制 把 未 知 解读 为 假 。 这 


样 它们 可 以 处 理 不 完整 的 知识 ， 也 就 是 部 分 指定 或 者 会 随时 间 完 善 的 知识 库 。 


， 典 型 的 逻辑 编程 语言 Prolog (来 源 于 programming in logic ) 是 基于 闭合 世界 假设 的 。 


例如 

















有 关 苏 格拉 底 的 知识 库 用 Prolog 的 语法 表示 如 下 所 示 : 


mortal(X) :- man(X) . 
man (socrates). 
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关于 柏拉图 是 否 会 死 的 答案 是 : 否 。 这 是 因为 系统 没有 关于 柏拉图 的 任何 知识 ， 因 此 不 能 做 


进一步 的 推论 。 


闭合 世界 假设 和 开放 世界 假设 的 二 重 性 也 影响 了 不 同 知识 库 的 融合 方式 。 如果 两 个 知识 库 提 
供 了 相反 的 事实 ， 基 于 闭合 世界 的 系统 将 触发 错误 ， 因 为 该 系统 不 能 处 理 这 种 类 型 的 不 一 致 。 另 
一 方面 , 基于 开放 世界 假设 的 系统 将 产生 更 多 的 知识 并 尝试 找到 解决 不 一 致 的 方法 ,从 而 尝试 从 
不 一 致 中 恢复 。 一 种 方法 是 为 事实 分 配 概率 : 简化 起 见 ， 两 个 相互 矛盾 的 事实 可 以 各 有 50% 的 概 


闭合 世界 假设 的 一 个 示例 是 机 票 预订 数据 库 。 该 系统 对 于 特定 的 领域 有 完整 的 信息 。 这 样 回 
答 某 些 问题 就 非常 清楚 了 : 如 果 座 位 是 在 值 机 时 分 配 , 而 一 名 已 经 预订 该 航班 的 乘客 并 没有 分 配 座 
位 , 那么 就 能 推断 出 该 乘客 还 没有 值 机 , 从 而 可 以 向 该 乘客 发 送 一 封 电子 邮件 以 提醒 他 在 线 值 机 。 


男 一 方面 ， 当 一 个 系统 不 具备 特定 领域 的 完整 信息 时 ,可 以 应 用 开放 世界 假设 。 例 如， 基于 
Web 的 在 线 职 位 发 布 平台 知道 给 定 工作 的 具体 位 置 。 如 果 一 家 公司 发 布 位 于 纽约 的 职位 , 但 收 到 
了 欧洲 求职 者 的 应 聘 申请 ,那么 该 系统 无 法 基于 现 有 的 信息 推断 该 应 试 者 能 否 到 美国 工作 。 因此， 
此 类 系统 可 能 需要 在 应 聘 者 提出 申请 时 明确 询问 。 


逻辑 和 逻辑 编程 是 非常 广阔 的 研究 领域 ， 因 此 ， 在 本 节 详 述 该 主题 的 方方面面 是 不 现实 的 。 
本 章 的 目的 仅仅 是 了 解 该 领域 。 对 于 Web 来 说 ， 假 设 知识 库 不 完整 通常 是 更 保险 的 做 法 ， 因 为 
Web 是 一 个 具有 不 完整 信息 的 系统 。 实 际 上 ，RDF (resource description framework， 资 源 描述 框 
架 ) 等 框架 是 基于 开放 世界 假设 的 。 


> 
小 









































































































































9.1.2 ” 微 格式 


微 格式 扩展 了 HTML ， 人 允许 作者 指定 机 器 可 读 的 语义 标注 ,这 些 标注 可 以 是 人 物 、 机 构 、 事 
件 和 很 多 不 同类 型 的 对 象 。 它 们 是 基本 的 惯例 , 为 内 容 生 产 者 提供 将 无 歧义 的 结构 化 数据 舱 入 网 
页 的 机 会 。 最 新 的 进展 融合 进 了 microformat2 。 


有 趣 的 微 格式 示例 如 下 所 示 。 


h-card: 表示 人 物 、 机 构 和 相关 的 联络 信息 

h-event : 表示 事件 信息 ， 如 地 点 和 开始 时 间 

h-geo: 表示 地 理 坐 标 ， 与 h-card 和 nh-event 结合 使 用 

XHTML Friends Network( XFN ): 通过 超 链接 表示 人 际 关系 

h-resume: 用 于 在 Web 上 发 布 简历 信息 和 简历 ， 包 括 教 育 、 经 历 和 技能 

h-product: 描述 与 产品 相关 的 信息 ， 如 品牌 、 价 格 或 描述 

h-recipe: 表示 Web 上 的 食谱 ， 包 括 原 料 、 数 量 和 指导 

hn-review: 发 布 对 任何 项 (如 hn-card、h-event、h-geo 或 者 h-product ) 的 评论 ， 
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包括 评分 信息 和 描述 
以 下 代码 片段 包括 一 个 XFN 标记 的 示例 ， 该 标记 用 于 通过 超 链 接 表 示人 际 关系 : 


<div> 
<a href="http://marcobonzanini.com" rel="me">Marco<a> 
<a href="http://example.org/Peter" rel="friend met">Peter<a> 
<a href="http://example.org/Mary" rel="friend met">Mary<a> 
<a href="http://example.org/John" rel="friend">John<a> 
</div> 


XFN 通过 rel 属性 增强 了 普通 的 HTML ,一 些 HTML 链接 已 经 根据 人 际 关系 被 打上 了 标签 。 
第 一 个 链接 标签 为 me， 意思 是 该 链接 与 文档 的 作者 相关 。 男 一 个 链接 被 标记 为 friend 和 met 
类 ,后 者 表示 见 过 的 人 ( 与 只 在 线 联系 的 关系 相反 )。 其 他 一 些 类 还 包括 spouse、child、 parent、 


acquaintance 和 CO"WOLKOLS 


以 下 代码 片段 用 h-geo 标记 表示 伦敦 的 地 理 坐 标 : 
































<p class="h-geo"> 
<span class="p-latitude">51.50722</span>, 
<span class="p-longitude">-0.12750</span> 
</p> 


h-geo 是 微 格式 的 最 新 版 本 ,但 旧版 本 ( geo ) 仍然 在 被 广泛 使 用 。 可 以 用 以 下 旧 格 式 重 写 
以 上 代码 : 




















<div class="geo"> 
<span class="latitude">51.50722</span>, 
<span class="longitude">-0.12750</span> 
</div> 


如 果 以 上 微 格式 的 示例 对 你 来 说 非常 简单 易 懂 , 那 是 因为 微 格式 本 意 如 此 。 微 格式 的 微 表示 
了 其 特点 : 极其 关注 非常 具体 的 领域 。 每 个 微 格式 规范 只 在 限定 的 领域 解决 一 个 定义 好 的 问题 
( 例如 ,描述 人 际 关系 或 者 提供 地 理 坐 标 ),。 这 一 特点 使 得 微 格式 具有 高 度 的 可 组 合 性 , 一 个 复杂 
的 文档 可 以 用 多 个 微 格式 来 提供 丰富 的 信息 。 此外, 一 些微 格式 可 以 嵌入 其 他 微 格式 来 提供 更 
富 的 数据 。 例 如 ，h-cargd 可 以 包括 h-geo，h-event 可 以 包括 h-card 和 nh-geo， 等 等 。 
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9.1.3 ”关联 数据 和 开放 数据 

关联 数据 是 指 用 W3C 标准 在 Web 上 发 布 结构 化 数据 的 一 组 原则 , 有 助 于 专门 的 算法 来 探索 
数据 间 的 关系 。 

语义 网 并 不 仅仅 是 将 数据 放 在 Web 上 ， 它 还 允许 人 们 〈 和 机 咒 ) 利用 和 探索 数据 。 伯 纳 斯 - 
李 因 此 提出 了 一 组 原则 来 推动 关联 数据 的 公开 ,并 推动 其 向 “关联 开放 数据 ”发 展 ， 也 就 是 可 以 
通过 开放 许可 来 获取 的 关联 数据 。 
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Web 实际 上 是 通过 超 链接 连接 的 文档 网 络 ， 与 之 类 似 ， 数据 网 同样 基于 发 布 在 Web 上 的 文 
档 及 其 链接 。 不 过 ,数据 网 是 关于 最 通用 形式 的 数据 ， 而 不 是 关于 文档 。 用 来 描述 任意 事物 的 格 
式 是 RDF， 而 不 是 (X)HTML。 


以 下 是 伯 纳 斯 - 李 提 出 的 四 个 原则 ， 可 以 用 作 构 建 关 联 数据 的 指南 : 


口 将 URI 作为 事物 的 名 称 
口 使 用 HTTP URI， 这 样 人 们 可 以 查找 这 些 名 字 
口 当 人 们 查找 一 个 URI 时 ， 用 标准 (RDF* 、SPARQL ) 提供 有 用 的 信息 
口 保留 到 其 他 URI 的 链接 ， 这 样 人 们 可 以 发 现 更 多 事物 

这 些 基本 原则 提供 了 对 内 容 发 布 者 的 期 望 ， 以 便 能 产生 关联 数据 。 

为 了 鼓励 人 们 接受 关联 数据 , 一 个 五 星 评分 系统 被 开发 出 来 , 便于 人 们 评估 自己 的 关联 数据 
并 理解 关联 开放 数据 的 重要 性 。 这 特别 针对 与 政府 相关 的 数据 拥有 者 ， 可 以 推动 数据 的 透明 度 。 
对 五 星 评分 系统 的 描述 如 下 所 示 。 


D 一 星 : 表示 在 Web 上 可 用 (任何 格式 ) ， 但 是 要 有 开放 许可 才能 成 为 开放 数据 。 
星 : 表示 作为 机 器 可 读 的 结构 化 数据 ( 如 Excel， 而 不 是 表格 的 图 像 扫描 ) 可 用 。 
星 : 满足 二 星 的 和 条件， 而且 是 非 专用 格式 (如 CSV， 而 不 是 Excel ) 。 
星 : 满足 前 面 所 有 星 级 的 条 件 ， 而 且 使 用 来 自 W3C 的 开放 标准 (RDF 和 SPARQL ) 来 
识别 事物 ， 从 而 让 人 们 可 以 识别 你 的 东西 。 
口 五 星 : 满足 前 面 所 有 星 级 的 条 件 ， 而 且 将 你 的 数据 与 其 他 人 的 数据 进行 链接 以 提供 上 
下 区 as 
达到 五 星 后 ， 数 据 集 的 下 一 步 是 提供 额外 的 元 数据 (关于 数据 的 数据 )。 对 于 政府 数据 ， 要 
列 在 主要 数据 目录 上 : 美国 的 是 https:/www.data.gov/， 英 国 的 是 https://data.gov.uk/， 欧 盟 的 是 
http://data.europa.eu/euodp/en/data。 
显而易见 , 关联 数据 是 语义 网 的 基本 概念 。 实现 关联 数据 的 一 个 著名 数据 集 示例 是 DBpedia， 
该 项 目的 目标 是 从 维基 百科 发 布 的 信息 中 抽取 结构 化 知识 。 








































































































































































































9.1.4 RDF 
RDF 来 源 于 W3C 规范 家 族 ， 最初 的 设计 目的 是 作为 元 数据 模型 ， 用 于 对 结构 化 知识 进行 
建 模 。 
与 在 数据 库 设 计 领 域 非常 流行 的 经 典 概念 性 模型 框架 ( 如 实体 关系 模型 ) 类 似 ，RDF 也 是 
基于 对 资源 的 声明 。 这 样 的 声明 是 用 三 元 组 表示 的 ， 因 为 它 有 三 个 基本 组 成 成 分 : 主语 、 谓 语 和 
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以 下 是 主 谓 宾 三 元 组 表示 的 一 个 示例 : 
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(Rome， capital of, Italy) 
(Madrid, capital_of, Spain) 
(Peter, friengd of, Mary) 
(Mary, friend_ of, Peter) 
(Mary, lives_in, Rome) 
(Peter, lives_in, Madrid) 











以 上 语法 是 任意 的 ， 并 不 遵循 特定 的 RDF 规范 , 但 它 可 以 作为 理解 数据 模型 简洁 性 的 示例 。 
基于 三 元 组 存储 声明 的 方法 可 以 表示 任意 知识 。 可 以 自然 地 把 一 个 RDF 声明 的 集合 看 作 一 个 图 ， 
并 且 是 有 标签 的 有 向 多 重 图 : 有 标签 是 因为 节点 ( 资源 ) 和 边 ( 谓语) 有 相应 的 信息 ， 如 边 的 名 
称 ; 有 向 是 因为 主 谓 宾 关系 有 明确 的 方向 ; 多 重 图 是 因为 同样 的 方 点 间 可 能 有 多 个 并 行 的 关系 ， 
也 就 是 说 ， 两 个 相同 的 资源 可 能 处 于 不 同 的 关系 中 ， 而 这 些 关 系 都 带 有 不 同 的 语义 。 


图 9-1 是 前 面 示例 的 可 视 化 表示 。 
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lives_in 











图 9-1 三 元 组 知识 的 可 视 化 表示 


下 一 层 的 知识 表示 在 RDF 中 ， 它 能 让 我 们 定义 三 元 组 的 一 些 额 外 结构 。 谓 语 raf :type 允 
许 我 们 声明 特定 的 对 象 属于 特定 的 类 型 。 此 外 ，RDF Schema ( RDFS ) 允许 我 们 定义 不 同类 之 间 
的 关系 。OWL 是 一 个 相关 的 技术 ， 人 允许 我 们 表达 不 同类 之 间 的 关系 ,但 它 所 提供 关于 数据 模型 
的 信息 在 约束 和 标注 方面 更 加 丰富 。 


RDF 可 以 序列 化 ( 即 导出 ) 为 多 种 不 同 的 格式 。XML 可 能 是 最 流行 的 格式 , 还 有 其 他 格式 ， 
例如 N3。 这 也 可 以 说 明 RDF 是 一 种 用 三 元 组 表示 知识 的 方式 ， 而 不 只 是 一 种 文件 格式 。 















































9.1.5 JSON-LD 格式 


我 们 在 前 面 的 几 章 中 都 碰 到 了 JSON 格式 ， 并 看 到 了 其 灵活 性 。JSON 和 关联 数据 的 关系 是 
用 JSON-LD 格式 表示 的 。 这 是 一 种 基于 JSON 的 轻 量 级 数据 格式 ， 因 此 更 易于 人 和 机 器 读 写 。 
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当 从 不 同 的 数据 源 链接 数据 时 , 我 们 可 能 会 面临 一 个 歧义 问题 。 思 考 一 下 表示 同一 个 人 的 两 
个 JSON 文档 ， 如 下 所 示 : 


0 i 
{ 
"name": "Marco", 
"homepage": "http://marcobonzanini.com" 
} 
A 
t 
"name": "mb123", 
"homepage": "http://marcobonzanini.com" 




















可 以 看 到 ， 以 上 示例 中 的 Schema 是 一 样 的 : 两 个 文档 都 有 name 和 homepage 属性 。 歧 义 
来 自 两 个 数据 源 使 用 相同 的 属性 名 称 , 但 是 具体 含义 不 同 。 实际 上 , 第 一 个 文档 用 name 指 人 名 ， 
而 第 二 个 文档 用 name 表示 登录 名 。 


我 们 感觉 这 两 个 文档 指 的 是 同一 个 实体 , 因为 nomepage 属性 的 值 相同 , 但 在 没有 进一步 信 
息 的 情况 下 ， 无 法 解决 这 个 此 义 问题 。 


JSON-LD 引入 了 一 个 名 为 上 下 文 的 简单 概念 。 当 使 用 上 下 文 时 ， 我 们 可 以 通过 已 经 熟悉 的 
URL 解决 以 上 歧义 问题 。 


查看 来 自 JSON-LD 网 站 的 以 下 代码 片段 : 
{ 


"@context": "http://json-ld.org/contexts/person.jsonld", 
"@id": "http://dbpedia.org/resource/John Lennon", 
"name": "John Lennon", 

"Orny “E940=10509", 

"spouse": "http://dbpedia.org/resource/Cynthia_ Lennon" 


} 


上 述 文档 将 @context 属性 作为 对 自身 有 效 属性 及 其 含义 列表 的 引用 。 这 样 一 来 ,就 能 确定 
我 们 期 望 在 文档 中 看 到 的 是 哪 种 属性 了 。 

以 上 示例 还 提 到 了 JSON-LD 的 另 一 个 特殊 属性 eia。 该 属性 是 一 个 全 局 标识 符 。 不 同 的 应 
用 在 表示 相同 实体 时 可 以 使 用 该 全 局 标识 符 。 这 样 一 来 , 来 自 不 同 数据 源 的 数据 可 以 消除 歧义 并 
链接 起 来 。 例 如 ， 一 个 应 用 可 以 用 标准 Schema 定义 一 个 人 ， 并 用 附加 属性 进行 增强 。 

上 下 文 (属性 的 列表 和 含义 ) 和 实体 的 全 局 识别 方式 是 关联 数据 的 基础 。JSON-LD 格式 用 
一 种 简单 且 优 雅 的 方式 解决 了 这 个 问题 。 

























































































9.1.6 Schema.org 
发 布 于 2011 年 ，Schema.org 是 一 些 主流 搜索 引擎 ( Google、Bing 和 Yahoo!，Yandex 随后 加 9 
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入 ) 的 合作 成 果 。 他 们 合作 的 初衷 是 创建 一 个 共享 的 Schema 集合 ， 描 述 用 于 网 页 的 结构 化 标记 
数据 。 


该 提议 关于 使 用 Schema.org 词汇 及 微 格 式 、RDF 格式 或 JSON-LD 来 用 网 站 的 元 数据 增强 网 
站 的 内 容 。 通 过 使 用 提议 的 Schema， 内 容 管理 者 可 以 用 额外 的 知识 标记 他 们 的 网 站 ， 从 而 帮助 
搜索 引 警 和 其 他 解析 器 更 好 地 理解 网 站 内 容 。 


关于 机 构 和 人 物 的 Schema 已 经 被 用 于 影响 Google 知识 图 谱 这 样 的 系统 ,Google 知识 图 谱 是 
一 个 知识 库 ， 可 以 在 搜索 特定 实体 时 用 语义 信息 增强 Google 搜索 引擎 的 结果 。 




















9.2 从 DBpedia 挖掘 关系 


DBpedia 是 最 受 欢 迎 的 关联 数据 源 之 一 。 它 基于 维基 百科 ， 用 实体 间 的 语义 关系 增强 这 一 流 
行 的 维基 式 百科 全 书 的 内 容 。 可 以 用 类 SQL 的 语言 SPARQL 从 网 站 中 获取 DBpedia 的 结构 化 信 
息 ，SPARQL 是 一 种 针对 RDF 的 语义 查询 语言 。 














在 Python 中 , 我 们 可 以 用 SPARQL 查询 数据 库 , 也 可 以 使 用 RDFLib 包 , 它 是 一 个 用 于 RDF 
的 库 。 


可 以 用 pip 将 RDFLib 安装 在 虚拟 环境 中 。 
$ pip install rdflib 


鉴于 语义 网 主题 非常 复杂 ， 我 们 用 一 个 示例 来 展示 DBpedia 的 能 力 ， 同 时 了 人 解 如 何 使 用 
RDFLib 包 。 





rdf_summarize_entity .py 脚本 查询 给 定 实体 并 尝试 将 其 摘要 输出 给 用 户 。 


# Chap09/rdf_summarize_entity.py 
from argparse import ArgumentParser 
import rdflib 


def get_parser(): 
parser = ArgumentParser() 
parser.add_argument ('--entity') 
return parser 


if name = na 
parser = get_parser() 
args = parser.parse_args() 
entity_url = 'http://dbpedia.org/resource/{}'.format (args.entity) 





g = rdflib.Graph() 
g.parse (entity_url) 


disambiguate_ url = 'http://dbpedia.org/ontology/wikiPpageDisambiguates' 
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query = (rdflib.URIRef (entity_url), 
rdflib.URIRef (disambiguate_ url), 
None) 
disambiguate = list(g.triples (query)) 
if len(disambiguate) > 1: 
print ("The resource {}:".format (entity_url)) 
for subj, pred, obj in disambiguate: 
print('... may refer to: {}'.format (obj)) 
else: 
query = (rdflib.URIRef (entity_url), 
rdflib.URIRef ('http://dbpedia.org/ontology/abstract'), 
None) 
abstract = list(g.triples (query)) 
for subj, pred, obj in abstract: 
if obj.language == 'en': 
print (obj) 


脚本 中 ArgumentParser 的 功能 与 之 前 示例 中 相同 。- -entity 参数 用 于 将 实体 名 称 传递 
给 脚本 。 该 脚本 根据 dbppedia.org/resource/<entity-name> 模 式 构 建 了 DBpedia 上 的 实体 
URL。 该 URL 用 raflib.Graph 类 构建 了 一 个 RDF 图 。 


下 一 步 确定 是 否 需 要 消除 歧义 , 即 查 看 是 否 有 给 定名 称 指向 多 个 实体 。 这 是 通过 查询 图 中 的 
三 元 组 实现 的 : 由 给 定 实体 的 URL 作为 主语 ，wikiPageDisambiguates 关系 作为 谓语 ， 且 宾 
语 为 空 。 为 了 构建 主语 、 谓 语 和 宾语 ， 需 要 使 用 rdf1ib.URIRef 类 ， 它 以 实体 或 关系 的 URL 
作为 唯一 的 参数 。None 对 象 是 三 元 组 的 一 个 元 素 ，triples () 方 法 将 其 作为 一 个 占 位 符 ， 用 于 
任何 可 能 的 值 ( 它 实 质 上 是 一 个 通配符 )。 


找到 卜 义 信息 后 ， 该 列表 会 被 打印 出 来 给 用 户 。 否 则 ， 该 实体 会 被 查找 ,特别 是 会 用 
triples () 方 法 检索 其 摘要 ， 然 后 给 出 None 对 象 。 给 定 的 实体 可 能 有 多 个 摘要 ， 因 为 实体 的 内 
容 也 许 是 多 语言 的 。 迭 代 结 果 时 ， 我 们 可 以 只 打印 英文 版 本 ( 标签 为 en )。 


例如 ， 可 以 用 以 下 脚本 对 Python 语言 做 摘要 描述 。 






































$ Python rdf_ summarize entity.py \ 
--entity "Python" 


只 将 Python 作为 关键 词 搜索 维基 百科 不 会 直接 得 到 我 们 期 望 的 结果 , 因为 这 个 词 本 身 是 有 
歧义 的 。 实 际 上 ， 好 几 个 实体 都 可 能 匹配 这 个 词 ， 因 此 代码 会 打印 出 完整 列表 。 以 下 是 输出 的 一 
个 小 片段 。 


























The resource http://dbpedia.org/resource/Python: 

. may refer to: http://dbpedia.org/resource/Python (film) 

. may refer to: http://dbpedia.org/resource/ 
Python_ (Coney Island, Cincinnati, Ohio) 

. may refer to: http://dbpedia.org/resource/Python (genus) 

. may refer to: http://dbpedia.org/resource/Python (programming language) 
# (more disambiguations) 
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准确 识别 Python_(programming_language) 实体 后 ， 可 以 用 准确 的 实体 名 称 重 新 运行 脚本 。 


$ Python rdf_ summarize entity.py \ 
--entity "Python (programming language)" 


这 次 的 输出 就 是 我 们 所 期 望 的 。 一 个 简短 的 输出 片段 如 下 所 示 。 




















Python is a widely used general-purpose, high-level programming language. 
Its design philosophy emphasizes code readability, (snip) 


该 示例 表明 ， 将 基于 三 元 组 的 高 层次 RDF 概念 模型 与 Python 接口 结合 起 来 是 一 个 相对 直接 
的 任务 。 














9.3 挖掘 地 理 坐 标 


前 面 介绍 过 ,geo 和 了 h-geo 是 用 于 发 布地 理 信息 的 微 格式 。 当 阅读 关于 社会 媒体 的 图 书 时 ， 
有 人 可 能 会 问 地 理 元 数据 是 否 为 对 社交 数据 的 描述 。 当 分 析 地 理 数据 时 , 关键 是 让 不 同 的 应 用 都 
可 以 探索 地 理 信 息 。 例 如 ， 用 户 可 能 希望 做 基于 位 置 的 商家 搜索 ( 如 在 Yelp 应 用 中 ) 或 者 查找 
在 特定 地 点 拍摄 的 照片 。 更 宽泛 地 说 , 应 用 场景 还 有 每 个 人 的 物理 位 置 或 者 寻找 处 于 某 个 位 置 的 
物体 。 地 理 元 数据 允许 应 用 实现 与 地 理 相 关 的 定制 。 在 社交 和 移动 数据 的 时 代 ， 这 些 定制 为 应 用 
开发 者 打开 了 新 的 思路 。 


回 到 对 语义 标记 数据 的 介绍 , 本 节 将 描述 如 何 用 维基 百科 从 网 页 中 抽取 地 理 元 数据 。 作 为 提 
醒 ， 经 典 的 geo 微 框架 如 下 所 示 。 















































<p class="geo"> 
<span class="latitude">51.50722</span>, 
<span class="longitude">-0.12750</span> 
</p> 


新 版 本 中 的 h-geo 也 是 类 似 的， 只 是 类 的 名 称 有 所 改变 。 一 些 维基 百科 模板 还 会 用 到 不 同 
的 格式 ， 如 下 所 示 。 























<span class="geo">51.50722; -0.12750</span> 


为 了 从 维基 百科 抽取 该 信息 ， 需 要 执行 两 个 步骤 :首先 检索 页 面 并 解析 HTML 代码 ， 然 后 
寻找 类 的 名 称 。 下 一 节 将 对 此 过 程 进行 详细 介绍 。 








9.3.1 从 维基 百科 抽取 地 理 数 据 


从 头 开始 实现 从 网 页 抽取 地 理 数 据 的 过 程 非常 简单 ， 比 如 用 我 们 已 经 介绍 过 的 requests 和 
Beautiful Soup 库 。 尽 管 有 这 样 的 简便 方法 ， 但 还 是 有 专门 的 Python 包 mf2py 来 解决 这 个 特定 
的 问题 。 它 提供 了 一 个 简单 的 接口 ， 可 以 快速 解析 给 定 URL 的 网 页 资源 。 这 个 库 还 提供 了 一 些 
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辅助 函数 ， 可 以 将 解析 数据 从 Python 字典 移 到 JSON 字符 串 中 。 
可 以 用 pip 将 mf2py 安装 到 虚拟 环境 中 。 
$ pip install mf2py 


这 个 库 提供 了 三 种 方法 来 解析 语义 标记 数据 : 我 们 可 以 将 一 段 内 容 作为 字符 串 、 文 件 指针 或 
URL 传递 给 parse () 函数 。 以 下 示例 展示 了 如 何 解 析 带 有 语义 标记 的 字符 串 。 








>>> import mf2py 
>>> content = '<span class="geo">51.50722; -0.12750</span>' 


>>> obj = mf2py.parse(doc=content) 
现在 obj 变量 包含 一 个 解析 内 容 的 字典 。 我 们 可 以 将 其 转换 成 JSON 字符 串 并 漂亮 地 打印 
出 来 。 


>>> import json 
>>> print (json.dumps (obj, indent=2)) 
{ 





"items": [ 
{ 
"type": [ 
"h-geo" 


], 
"properties": { 
"name": [ 
"51.50722; -0.12750" 
] 
} 
} 
]， 
"rels": {}, 
"rel-urls": {} 
} 


如 果 和 希望 将 一 个 文件 指针 传递 给 解析 函数 ， 过 程 非常 相似 ， 如 下 所 示 。 





>>> with open('some content.xml') as fp: 
obj = mf2py.parse (doc=fp) 


如 果 和 希望 将 一 个 URL 传递 给 解析 函数 , 那么 需要 用 url 参数 , 而 不 是 aoc 参数 , 如 下 所 示 。 





>>> obj = mf2py.parse(url='http://example.com/your-url') 

mf2py 库 的 解析 功能 是 基于 Beautiful Soup 实现 的 。 如 果 调 用 Beautiful Soup 时 没有 特别 指定 
解析 器 ， 那 么 mf2py 将 尝试 最 佳 选项 。 例 如 ， 如 果 我 们 安装 了 lxml (第 6 章 中 已 经 实践 过 )， 那 
么 它 就 会 是 一 个 最 佳 选 择 。 调 用 parse () 函数 会 触发 以 下 警告 : 











UserWarning: No parser was explicitly specified, so I'm using the best 
available HTML parser for this System ("lxml"). This usually isn't a 
problem, but if you run this code on another system, or in a different 
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Virtual environment, it may use a different parser and behave differently. 
To get rid of this warning, change this: 


BeautifulSoup([your markup]) 
to this: 


BeautifulSoup([your markup], 


以 上 消息 


| 
































>>> obj 


介绍 了 mf2py 后 





浇 


micro_geo_wiki.py 脚本 以 维基 


# Chap09/micro_geo_wiki.py 


Beautiful Soup 抛 出 ， 但 我 们 并 不 是 直接 与 这 个 库 交 互 ， 因 此 如 何 解 决 这 个 
令 人 困惑 。 解决 方式 是 在 调用 也 可 二 总 总 (0 


mf2py.parse(doc=content, 


"lxml") 

















个 问题 





函数 时 显 式 指定 解析 器 的 名 称 ， 如 下 所 示 。 





html parser='lxml') 


， 我 们 可 以 融会 贯通 ， 尝 试 解析 维基 百科 页 面 中 的 地 理 信息 。 


百科 URL 作为 输入 并 显示 相应 坐标 的 地 点 。 





from argparse import ArgumentParser 


import mf2py 


def get_parser (): 
parser Argument Parser () 
parser.add_ argument ( 
return parser 


) 


aka na 


def get_geo(doc): 
Coords [] 
GT "inde6cGL" 
tT 
data { 
mame ' : 
'geo': 
} 
coords.append (data) 
except (IndexError, KeyErro 
pass 
return coords 


items' 


J]: 


dl 
dl 


'properties'] 
'properties'][ 


主 下 main _': 
get_parser () 


parser.parse_args () 


name 
parser 
args 





doc mf2py .parse (url=args .ur 
coords get_geo (doc) 
for item in coords: 

print (item) 


述 脚本 用 ArgumentParser 从 命 
的 URL。 


[ 


'geo! 


"ame ， 


] 


[0 
] [ 


] ， 


] 
[0 Value '] 


Es 


1, html_parser='1lxml') 





行 获取 输入 参数 。--url 参数 用 于 传递 我 们 希望 解析 


命令 
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接 下 来 调用 mf2py .parse() 函数 ， 传 递 URL 作为 参数 ， 获 得 微 格 式 信息 的 字典 。 


抽取 地 理 坐 标的 核心 逻辑 由 get_geo () 函数 实现 ， 它 将 解析 字典 作为 输入 并 返回 字典 列表 
作为 输出 。 输 出 中 的 每 个 字典 有 两 个 键 : name (地 点 名 ) 和 geo (坐标 )。 


可 以 用 以 下 命令 运行 以 上 脚本 。 








$ Python micro geo wiki.py \ 
--url "https://en.wikipedia.org/wiki/London" 


输出 结果 如 下 所 示 。 

{'name': 'London', 'geo': '51.50722; -0.12750'} 

不 出 意料 的 是 ， 在 关于 伦敦 的 维基 百科 页 面 ， 我 们 找到 的 唯一 坐标 是 伦敦 市 中 心 的 坐标 。 
维基 百科 还 提供 了 许多 包含 很 多 地 点 的 页 面 ， 如 下 所 示 。 









































$ python micro geo wiki.py --url \ 
"https://en.wikipedia.org/wiki/List of United States cities by population" 


运行 上 述 命令 会 生成 很 长 的 输出 (超过 300 行 )， 输 出 结果 包含 一 些 美国 城市 的 地 理 信息 。 
以 下 是 输出 的 一 个 小 片段 。 








{'geo': '40.6643; -73.9385', 'name': '1 New York City'} 
{'geo': '34.0194; -118.4108', 'name': '2 Los Angeles'} 
{'geo': '41.8376; -87.6818', 'name': '3 Chicago'} 

# (snip) 








该 示例 表明 ， 从 网 页 抽取 地 理 数据 并 不 是 特别 困难 的 事情 。mf2py 库 允 许 我 们 通过 短 短 几 行 
代码 来 完成 任务 。 

下 一 节 会 更 深入 一 步 : 获得 地 理 信息 后 , 我 们 可 以 做 什么 呢 ? 将 其 绘制 在 地 图 上 可 能 是 最 直 
接 的 答案 ， 因 此 我 们 将 用 Google Maps 将 地 理 数据 可 视 化 。 




















9.3.2 在 Google Maps 上 绘制 地 理 数 据 
Google Maps 是 一 项 非常 受 欢 迎 的 服务 ， 并 不 需要 过 多 介绍 。 它 功能 众多 ， 其 中 就 有 用 感 兴 
趣 的 点 创建 自 定义 地 图 的 功能 。 


要 自动 创建 地 图 并 确保 不 同 应 用 间 的 互 操作 性 , 一 种 方法 是 用 常用 格式 分 享 坐标 。 本 节 将 介 
绍 Keyhole 标记 语言 ( keyhole markup language，KML )， 它 可 以 将 数据 导 成 Google Maps 可 识别 
的 格式 。KML 格式 是 一 种 XML 标记 ， 用 于 表达 二 维和 三 维 的 地 图 地 理 坐 标 数据 。 它 最 初 是 为 
Google Earth 所 开发 的 ， 现 应 用 于 很 多 领域 。 


以 下 片段 是 KML 文档 的 示例 ， 它 表示 地 图 中 伦敦 的 位 置 。 
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<?xml] version="1.0" encoding="UTF-8"?> 
<km] xmlns="http://www.opengis.net/kml/2.2"> 
<Document> 
<Placemark> 
<name>London</name> 
<description>London</description> 
<Point> 
<coordinates>-0.12750,51.50722</coordinates> 
</Point> 
</Placemark> 
</Document> 
</kml> 


我 们 可 以 观察 coordinates 标签 的 值 ,从 维基 百科 中 抽取 出 的 地 理 数据 格式 为 1atitude; 
longitude， 而 KML 标记 使 用 的 是 longitude，1latitude，altitude， 这 里 海拔 参数 是 可 
选 的 ， 没 有 给 出 时 默认 为 0。 


为 了 在 Google Maps 上 对 地 理 坐 标 列 表 进 行 可 视 化 , 接 下 来 的 任务 是 生成 KML 格式 的 列表 。 
在 Python 中 ，PyKML 库 可 以 简化 该 过 程 。 


可 以 用 pip 将 这 个 库 安装 到 虚拟 环境 中 。 












































$ pip install pykml 


以 下 的 micro_geo2kml .py 脚本 扩展 了 前 面 从 维基 百科 抽取 地 理 数 据 的 例子 ， 将 结果 输出 
为 KML 格式 的 文件 。 








这 个 脚本 尝试 用 lxml 库 将 XML 序列 化 为 一 个 字符 事 。 如 果 这 个 库 不 存在 ， 它 将 使 
用 一 个 Python 标准 库 一 ElementTree。 有 关 lxml 库 的 详细 介绍 ， 可 以 参见 第 6 章 。 


# Chap09/micro_geo2km] .py 

from argparse import ArgumentParser 

import mf2py 

from pykml .factory import KML ElementMaker as KML 


trys 
from lxml import etree 
except ImportError: 
import xml.etree.ElementTree as etree 


def get_parser (): 
parser = ArgumentParser() 


parser.add_ argument ('--url') 
parser.add argument ('--output') 
parser.add argument ('--n', default=20) 


return parser 


def get_geo(doc): 
coords = [] 
for d in doc['items']: 
七 于 
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'name': Qq['properties']['name'][0]， 
'geo': Qq['properties']['geo'][0]['value'] 


coords.append (data) 
except (IndexError, KeyError): 
pass 
return coords 


全 下 marme == ' main 
parser = get_parser() 
args = parser.parse_args() 





doc = mf2py.parse (url=args .url) 
coords = get_geo (doc) 
folder = KML.Folder() 
for item in coords[:args.n]: 
lat, lon = item['geo'] .split('; ') 
place_coords = ','.join([lon, lat]) 
place = KML.Placemark\( 
KML.name (item['name']), 
KML .Point (KML .coordinates (place_coords)) 
) 





folder .append (place) 


with open(largs.output, 'w') as fout: 

Xml = etree.tostring (folder, 

pretty_print=True) .decode('utf8') 
fout .write (xml) 


上 述 脚 本 用 ArgumentParser 从 命令 行 获取 三 个 输入 参数 : --url 参数 用 于 获取 待 解 析 的 
网 页 ， --output 用 于 指定 保存 地 理 信 息 的 KML 文件 的 名 称 ; 可 选 参 数 --n 默认 为 20， 用 于 指 
定 我 们 希望 在 地 图 中 包含 多 少 个 地 点 。 


在 主 模块 中 ， 我 们 将 解析 给 定 的 页 面 并 用 get_geo () 函数 获取 地 理 坐 标 。 0 
一 个 字典 列表 ， 每 个 字典 包含 作为 键 的 name 和 geo。 在 KML 术语 中 ， 地 点 称 为 地 点 标记 ， 
点 列表 称 为 文件 夹 。 换 句 话 说， 该 脚本 将 Python 字典 列表 翻译 为 一 份 装 


这 个 任务 的 执行 是 通过 将 folger 变量 初始 化 为 一 个 空 的 KML .Folder 对 象 。 当 用 地 理 信 
息 和 迭代 字典 列表 时 , 我 们 将 为 列表 中 的 每 个 元 素 创 建 一 个 KML .Placemark 对 象 。 地 点 标记 由 一 
个 KML.name 和 KML.Point 组 成 ， 即 拥有 地 理 坐 标 信息 的 对 象 。 


为 了 用 KML 格式 创建 坐标 ， 我 们 需要 分 隔 坐 标 字符 串 。 坐 标的 原始 格式 是 1atitude; 
longituqde， 分 隔 后 交换 这 两 个 值 并 用 逗号 代替 分 号 ， 最 终 的 字符 串 存 储 在 place_coords 变 
量 中 ， 格式 为 Jongitudqe，1Latituaqe。 


创建 好 地 点 标记 列表 后 ， 最 后 一 步 是 将 这 个 对 象 保 存 为 XML 格式。 这 一 步 是 由 tostring () 
方法 实现 的 ， 它 返回 一 个 bytes 对 象 ， 因 此 需要 在 写 人 文件 前 解码 。 


可 以 用 以 下 命令 执行 上 述 脚本 。 
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Python micro geo2kml .py \ 
--url "https://en.wikipedia.org /wiki/ 
List_ of United States cities by population" \ 
--output us_cities.kml \ 
--n 20 


现在 地 理 数据 保存 在 us_cities.kml 文件 中 ，Google Maps 可 以 导入 该 文件 来 创建 一 个 自 定义 
地 图 。 


在 Google Maps 的 菜单 中 选择 Your places 来 查看 我 们 喜欢 的 地 点 ， 然 后 选择 MAPS 打开 自 
定义 地 图 列表 。 图 9-2 展示 了 菜单 及 自 定义 地 图 的 列表 。 








Your places 


LABELED 


9| US Cities by Population 


SEE ALL YOUR MAPS 


SAVED VISITED 








定义 地 图 列表 


点 击 CREATE MAP 后 , 我 们 可 以 从 文件 中 导入 数据 ， 导 入 的 文件 格式 可 以 是 表格 、CSV 或 
KML 文件 。 选 择 脚 本 生成 的 us_cities.kml 文件 后 ， 可 以 看 到 如 图 9-3 所 示 的 结果 。 








图 9-2” Google Maps 中 的 自 
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图 9-3 Google Maps 显示 的 美国 城 
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9.4 小 结 


本 章 开 头 介绍 了 Web 之 父 带 姆 伯 纳 斯 - 李 的 愿景 。 将 Web 当 作 社 会 产物 而 非 技术 产物 的 观 
点 可 以 帮助 我 们 模糊 社交 数据 和 语义 数据 的 边界 。 


我 们 还 介绍 了 语义 网 的 宏大 蓝图 ， 以 及 这 些 年 提出 的 不 同 技术 如 何 使 其 变 得 更 加 现实 和 牢 
固 。 虽 然 在 过 去 的 15~20 年 中 ， 人 们 对 语义 网 大 肆 宣 传 、 期 望 颇 高 ， 但 是 蒂 姆 ， 伯 纳 斯 - 李 的 愿 
景 尚 未 普及 。 


以 W3C、 政 府 和 其 他 私人 企业 (如 Schema.org ) 为 代表 的 社区 努力 推动 了 这 一 方向 的 发 展 。 
尽管 质疑 者 有 很 多 材料 来 批评 语义 网 的 诺言 尚未 完全 实现 ， 但 是 我 们 更 愿意 关注 目前 的 机 会 。 


社会 媒体 生态 系统 的 当前 趋势 表明 , 社交 数据 和 语义 数据 有 很 深 的 关联 。 本 书 介绍 了 从 不 同 
的 社会 媒体 平台 挖掘 数据 的 方法 , 主要 是 用 平台 提供 的 API 以 及 一 些 用 于 数据 挖掘 和 数据 分 析 的 
Python 流行 工具 。 单 任 本 书 只 能 对 该 主题 的 皮毛 做 一 些 介绍 , 我 们 希望 你 可 以 意识 到 , 在 社会 媒 
体 的 背景 下 ， 数 据 挖掘 实践 者 和 学 者 有 非常 多 的 机 会 。 
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